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Mahout in Action 过 收集 数据 来 学 习 和 演进 的 计算 机 系统 
威力 无 穷 。Mahout 作 为 Apache 的 开源 机 器 学 


v 

A h 习 项 目 ， 把 推荐 系统 、 分 类 和 聚 类 等 领域 的 术 
过 ou 心算 法 浓缩 到 了 可 扩展 的 现成 的 库 中 。 使 用 
; + Mahout， 你 可 以 立即 在 自己 的 项 目 中 应 用 亚 
Sr iy 马 逊 、Netflix 及 其 他 互联 网 公司 所 采用 的 机 器 

学 习 技术 
本 书 出 自 Mahout 核 心 成 员 之 手 ， 得 到 
Apache EHER, NAERAA. FARA 
借 多 年 实战 经 验 ， 为 读者 展现 了 丰富 的 应 用 案 
“全 面 介绍 Mahout 机 器 学 习 实 战 的 佳作 。” 例 ， 并 细致 地 介绍 了 Mahout 的 解决 之 道 。 本 


一 一 lsabel Drost, Apache Mahout 创 始 人 书 还 重点 讨论 了 可 扩展 性 问题 ， 介 绍 了 如 何 利 
和 用 Apache Hadoop 框 架 应 对 大 数据 的 挑战 。 


“深入 浅 出 ， 复 杂 概念 都 讲解 得 透彻 明白 
——Rick Wagner, Red Hat 


ARBAB: 


Pere rd 便利 用 分 组 数据 实现 个 性 化 推荐 ; 
“出 自 核心 开发 团队 之 手 ， 学 习 Mahout 必 读 。" @@ 寻 找 数据 中 的 逻辑 能 
— Philipp K. Janert, Gnuplot in Action 作者 全 通过 即时 分 类 实现 过 渡 与 调 优 
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内 容 提 要 
本 书 是 Mahout 领域 的 权威 著作 ， 出 自 该 项 目 核心 成 员 之 手 ， 立 足 实 践 ， 全 面 介绍 了 基于 Apache Mahout 
的 机 器 学 习 技 术 。 本 书 开篇 从 Mahout 的 故事 讲 起 ， 接 着 分 三 部 分 探讨 了 推荐 系统 、 聚 类 和 分 类 ， 最 后 的 附 
录 涵盖 JVM 调 优 、Mahout 数学 知识 和 相关 资源 。 
本 书 适 合 所 有 数据 分 析 和 数据 控 气 人员 阅读 ， 需 要 有 Java 语言 基础 。 
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追溯 这 本 书 的 由 来 , 就 我 个 人 而 言 , 要 从 2005 年 说 起 。 我 的 一 个 朋友 当时 正在 创办 一 家 公司 ， 
和 急需 协同 过 滤 技 术 。 虽 然 当 时 可 以 找到 成 熟 、 开 源 的 软件 包 ,， 但 是 它们 要 么 太 过 繁复 , BARE 
术 化 。 所 以 , 我 决定 从 零 开始 ， 为 这 个 朋友 的 创业 公司 开发 了 一 个 推荐 系统 的 简单 原型 。 遗 憾 的 
Æ, 这 家 创业 公司 天 折 了 。 然而, 我 却 无 法 说 服 自 己 删除 这 个 原型 。 它 实在 有 趣 ， 于 是 我 对 它 进 
行 整理 并 写 了 文档 ， 用 Taste 这 个 名 字 将 它 发 布 为 一 个 开源 项 目 。 

一 年 无 声 地 过 去 了 。 我 在 业余 时 间 为 其 增加 了 一 些 代码 ,并 修复 了 一 些 问 题 。 接着， 有 一 两 
个 用 户 出 现 ， 并 提交 了 一 些 软件 bug 和 补丁 ， 然 后 又 有 了 几 个 用 户 ， 再 后 来 又 增加 了 好 一 些 。 到 
了 2008 年 ， 虽 然 小 但 却 稳定 的 用 户 群 形成 了 。 后 来 ，Apache Lucene 的 人 把 机 器 学 习 相 关 的 部 分 
剥离 出 来 形成 了 Apache Mahout， 他 们 建议 把 我 们 的 两 个 项 目 进行 合并 。 此 后 ， 本 书 在 2009 年 晚 
些 时 候 开 始 立 项 。 而 今 ， 当 看 到 这 个 项 目 滚雪球 般 地 发 展 到 2011 年 ， 并 开始 被 大 公司 在 生产 系统 
中 使 用 ,我 自己 既 惊 讶 又 欣喜 。 | 

的 确 , 我 只 是 无 心 插 柳 。 即 便 我 已 经 是 一 个 高 级 工程 师 ， 曾 在 谷歌 工作 过 ,也 没有 人 会 误 认 
为 我 是 这 个 领域 的 专家 。 我 更 像 是 一 个 博物 馆 的 管理 者 , 而 不 是 一 个 画家 , 我 将 一 个 领域 的 伟大 
思想 进行 搜集 、 组 织 和 打包 ， 使 之 广 为 所 用 。 这 同样 不 失 为 一 项 有 用 的 工作 。 

一 些 人 在 读 过 本 书 的 初稿 之 后 ,说 它 是 一 本 “通俗 易 懂 ” 的 机 器 学 习 书 。 这 是 一 种 盛誉 ， 而 
我 完全 赞同 。 机 器 学 习 有 其 魔力 所 在 , 不 过 这 个 领域 中 有 许多 研究 性 的 著作 对 于 非 专业 人 员 而 言 
就 像 天 书 , 它们 也 与 该 技术 的 应 用 实践 相去 其 远 。 而 本 书 旨 在 让 读者 易于 理解 ,为 爱好 者 揭示 领 
悟 的 快乐 ， 并 为 实践 者 节省 工作 时 间 。 我 希望 你 阅读 本 书 时 的 惊喜 比 疑 问 多 。 


Sean Owen 


我 对 机 器 学 习 的 兴趣 可 以 回溯 到 2006 年 上 大 学 的 那 段 日 子 。 那 时 ， 我 作为 实习 生 和 一 组 人 
共同 设计 一 个 个 性 化 的 推荐 引擎 。 这 个 小 组 后 来 成 长 为 Minekey 公 司 ; 我 也 被 邀请 加 入 ， 成 为 
其 核心 开发 人 员 。 后 来 的 四 年 ， 我 一 直 从 事 机 器 学 习 技 术 的 实现 与 试验 。 在 此 期 间 ， 我 偶然 间 
发 现 了 Mahout， 并 开始 作为 一 个 Google Summer of Code 的 参赛 学 生 加 入 这 个 项 目 。 我 记得 ， 
接 下 来 的 事情 就 是 不 断 为 它 的 代码 库 贡 献 算法 和 补丁 ,做 性 能 调 优 ， 以 及 帮助 邮件 列表 中 的 其 
他 人 。 


2 前 = 
由 机 器 学 习 开 发 者 、 研 究 者 和 爱好 者 组 成 的 社区 非常 出 色 ， 正 在 不 断 成 长 ， 而 我 有 幸 成 为 这 
个 团队 的 一 员 。 随 着 越 来 越 多 的 公司 采用 Mahout, 它 正 在 成 为 机 器 学 习 的 主流 软件 库 。 我 衷心 希 
望 你 在 阅读 本 书 时 能 够 乐 在 其 中 。 


Robin Anil 


我 (Ted) 在 机 器 学 习 上 是 先 做 研究 后 做 项 目 。 我 早期 从 事 的 是 学 术 工作 ， 后 来 参与 了 一 些 
创业 团队 ， 从 而 得 以 将 机 器 学 习 在 实际 中 应 用 。 

我 (Ellen ) 以 前 在 生物 化 学 和 分 子 生物 学 实验 室 工作 。 在 研究 大 量 数 据 的 同时 ， 我 还 写 了 许 
多 技术 文章 。 WBA, 让 我 痴迷 于 数据 及 其 蕴含 的 意义 。 我 努力 把 这 种 内 在 的 东西 写 进 本 书 里 。 

我 们 两 个 人 一 致 认为 开源 有 赖 于 一 个 有 大 量 活跃 用 户 参与 的 社区 .Mahout 的 成 功 主要 来 自 于 
那些 使 用 这 个 软件 的 人 ， 他 们 通过 在 邮件 列表 中 展开 讨论 、 修 复 bug， 以 及 提供 建议 ， 把 使 用 经 
验 回 馈 到 这 个 项 目 中 。 

为 此 , 本 书 不 仅 给 出 代码 的 实用 注解 ,而且 引出 了 代码 背后 的 一 些 概念 。 介 绍 隐藏 于 代码 背 
后 的 框架 , 会 使 你 更 有 效 地 加 入 到 Mahout 的 讨论 中 , 并 从 中 获 益 。 我 们 希望 本 书 不 仅 能 够 帮助 读 
者 ， 而 且 能 够 使 Mahout 自 身 得 到 完善 和 发 展 。 


Ted Dunning 和 Ellen Friedman 
致谢 


未 书 的 出 版 离 不 开 众人 的 努力 。 作 者 对 他 们 致 以 衷心 的 感谢 , 但 限于 篇 幅 ， 致 谢 名 单 只 列 出 
了 其 中 一 部 分 人 ， 排 名 不 分 先后 。 

O 在 机 器 学 习 领 域 发 表 核 心 文章 的 研究 者 ， 详 见 附录 C。 

Co 花 时 间 测 试 试用 版 软件 的 Mahout 用 户 , 他 们 寻找 与 解决 bug, 为 软件 打 补丁 乃至 提出 建议 。 

口 Mahout 提 交 者 ， 他 们 致力 于 Mahout 的 发 展 、 完 善 和 提升 。 

口 Manning 出 版 社 投入 了 大 量 时 间 和 精力 将 本 书 出 版 并 投入 市 场 。 特 别 感谢 Katharine 
Osborne, Karen Tegtmeyer, JeffBleiel, Andy Carroll, Melody Dolab 和 Dottie Marsico, 你 
看 到 的 最 终 稿 与 他 们 的 工作 密 不 可 分 。 

O 在 本 书写 作 过 程 中 提供 了 宝贵 反馈 的 审 校 者 : Philipp K. Janert、Andrew Oswald. John 
Griffin, Justin Tyler Wiley, Deepak Vohra, Grant Ingersoll, Isabel Drost, Kenneth DeLong, 
Eric Raymond, David Grossman, Tom Morton, 以 及 Rick Wagner. 

O Alex Ott 在 本 书 印刷 前 一 刻 对 全 稿 进行 了 细致 的 技术 审核 。 

口 在 作者 在 线 论坛 上 发 帖 评价 本 书 的 MEAP 读 者 "。 

O 每 个 在 Mahout 邮 件 列表 中 提问 的 人 。 

口 在 本 书 长 时 间 写 作 过 程 之 中 ， 给 予 我 们 无 尽 支持 的 家 人 和 朋友 ! 


@ MEAP， 全 称 Manning Early Access Program。 因 为 图 书 出 版 周期 较 长 ， 为 让 读者 可 以 时 刻 了 解 热门 技术 ，Manning 出 
版 社 推出 了 这 一 图 书 抢 鲜 阅读 项 目 。 参 与 其 中 的 读者 可 以 在 图 书 未 编辑 完成 之 际 ， 一 章 一 章 地 阅读 。 一 一 编者 注 
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你 可 能 还 有 疑问 : 这 本 书 是 否 适合 我 ? 

如 果 你 正在 寻找 一 本 机 器 学 习 教 材 , 管 案 是 否定 的 。 本 书 不 会 对 诸多 算法 和 技术 的 理论 以 及 
推导 过 程 给 出 全 面 解 释 。 如 果 你 了 解 机 器 学 习 技 术 ,， 并 熟悉 矩阵 和 向 量 等 相关 的 数学 概念 , 这 有 
助 于 阅读 本 书 ， 但 并 非 必要 条 件 。 

如 果 你 正在 开发 先进 、 智 能 的 应 用 , 答案 则 是 肯定 的 。 本 书 从 实践 而 非 理 论 人 手 来 诠释 这 些 
技术 , 并 给 出 完整 的 例子 与 解决 方案 。 它 在 教授 用 Mahout 解 决 问题 的 同时 ， 带 给 你 实践 者 的 经 验 
与 领悟 。 

如 果 你 是 人 工 智 能 、 机 器 学 习 及 相关 领域 的 研究 人 员 , 答案 亦 是 肯定 的 。 你 所 面 对 的 最 大 障 
碍 , 很 可 能 就 是 把 新 的 算法 应 用 到 实践 中 。 对 于 新 的 大 规模 算法 的 测试 与 部 署 , Mahout 提 供 了 一 
个 成 熟 的 框架 、 一 系列 模式 以 及 现成 的 组 件 。 本 书 是 你 在 复杂 的 分 布 式 计算 框 架 上 学 习 开 发 机 器 
学 习 系统 的 “快车 票 ”。 

如 果 你 正 领导 一 个 产品 小 组 或 创业 团队 , 想 利用 机 器 学 习 创造 一 种 竞争 优势 , 那么 本 书 同样 
适合 你 。 通过 实际 示例 , 它 让 你 了 解 这 些 技术 的 多 种 应 用 方式 。 它 还 会 让 小 型 技术 团队 变 得 高 效 ， 
能 够 处 理 大 量 数据 ， 而 这 在 以 前 只 有 具有 大 量 技术 资源 的 组 织 机 构 才 做 得 到 。 


路 线 图 


本 书 分 为 三 部 分 ， 分别 介绍 了 Apache Mahout 中 的 协同 过 滤 、 聚 类 和 分 类 。 

首先 ， 第 1 章 整 体 介 绍 Apache Mahout。 这 一 章 为 你 阅读 后 续 各 章 葛 定 基础 。 

第 一 部 分 (第 2 章 ~ 第 6 章 ) 由 Sean Owen 编 写 ， 主 要 介绍 协同 过 滤 与 推荐 。 第 2 章 基 于 Mahout 
构造 推荐 引擎 并 评估 其 性 能 。 第 3 章 探讨 如 何 高 效 呈 现 推 荐 引擎 使 用 的 数据 。 第 4 章 介 绍 可 在 
Mahout 中 利用 的 所 有 推荐 算法 ， 并 比较 它们 的 优 缺 点 。 在 此 背景 之 下 ， 第 5 章 给 出 一 个 案例 ， 将 
第 4 章 介 绍 的 推荐 系统 实现 应 用 在 该 案例 的 真实 问题 中 ， 配 以 某 些 特定 属性 的 数据 ， 从 而 建立 一 
个 可 为 生产 环境 所 用 的 推荐 引擎 。 第 6 章 介 绍 Apache Hadoop, ， 通 过 研究 基于 Hadoop 的 推荐 引擎 ， 
首次 为 你 展现 分 布 式 环境 中 的 机 器 学 习 算 法 。 

第 二 部 分 (第 7 章 ~ 第 12 章 ) 探索 Apache Mahout 上 的 聚 类 算法 。 通 过 Robin Anil 所 做 的 技术 说 
BA, 你 可 以 把 看 起 来 类 似 的 数据 片段 组 织 为 一 个 个 集合 或 者 说 簇 (cluster )。 聚 类 有 助 于 揭示 大 规 
模 数 据 中 有 趣 的 信息 组 合 。 这 部 分 从 聚 类 中 的 简单 问题 开始 介绍 ， 并 给 出 了 Java 示 例 。 接 下 来 ， 


2 关于 本 书 


作者 引入 更 多 实际 示例 ， 并 展示 如 何 让 Apache Mahout 以 Hadoop 作 业 的 方式 运行 ， 从 而 轻而易举 
地 聚 类 大 量 数据 。 

第 三 部 分 (第 13 章 ~ 第 17 章 ) 由 Ted Dunning 和 Ellen Friedman 编 写 , 探索 如 何 用 Mahout 进 行 分 类 。 
首先 ， 作 者 带 你 了 解 如 何 通过 一 组 示例 “教会 ”一 个 算法 ， 从 而 建立 和 训练 分 类 器 模型 。 接 下 来 ， 
你 会 了 解 如 何 评估 并 微调 分 类 器 模型 以 得 到 更 好 的 结果 。 这 部 分 最 后 以 一 个 分 类 实战 案例 结束 。 


代码 约定 及 下 载 


本 书 源 代码 均 采 用 等 宽 字体 印刷 ， 列 为 代码 清单 ,并 对 重点 进行 注释 。 代 码 清单 旨 在 简单 明 
了 ， 重 点 突出 。 它 们 通常 不 给 出 Java 导 和 人 包 、 类 声明 、Java 注 释 ， 以 及 其 他 对 代码 的 讨论 无 关 紧 
要 的 东西 。 

本 书 中 的 类 名 亦 采 用 等 宽 字 体 ， 放 于 文本 之 间 ， 以 显示 它们 是 可 以 在 Apache Mahout 源 代码 
中 找到 并 研究 的 类 名 。 例 如 ，LogLikelihoodsimilarity 是 Mahout 中 的 一 个 Java 类 。 

一 些 代码 清单 中 列 出 了 可 执行 命令 。 它 们 是 为 Mac OSX 和 Linux 发 行 版 等 类 Unix 环 境 而 写 的 。 
如 果 使 用 了 类 Unix 的 Cygwin 环 境 ， 它 们 也 可 以 在 微软 Windows 系 统 下 运行 。 

本 书 关键 代码 清单 中 的 源 代码 均 可 编译 ， 且 均 可 从 www.manning.com/MahoutinAction 下 载 "。 
这 些 都 是 独立 的 Java 源 文件 ， 并 不 包括 编译 脚本 。 为 了 方便 起 见 ， 你 可 以 把 它们 解压 到 Mahonut 
源 代码 发 布 包 的 examples/src/java/main 目 录 下 。 这样, Mahout 的 编译 环境 将 会 自动 编译 这 些 代 码 。 
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四 位 作者 均 录 制 了 音频 和 视频 片段 , 与 书 中 多 数 章 中 的 特定 节 互 相 补 充 , 为 相应 话题 提供 了 附加 
信息 。 你 可 以 从 本 书 英文 版 电子 书 中 看 到 或 听 到 这 些 音 视频 片段 , 该 电子 书 对 英文 纸 质 书 的 拥有 者 免 
费 ; 你 还 可 以 从 www.manning.com/MahoutinAction/extras 人 免费 获取 。 通 过 书 中 的 音频 和 视频 图 标 ， 你 可 
以 获知 其 所 涉及 的 话题 ， 以 及 发 言 者 是 谁 。 这 些 多 媒体 资料 的 清单 详 见 “ 关 于 多 媒体 资料 ”。 


作者 在 线 


本 书 英 文 版 读者 可 以 免费 访问 Manning 出 版 社 专门 维护 的 一 个 论坛 ， 并 可 以 发 表 评论 、 提 出 技 
术 问 题 ， 并 获得 作者 和 其 他 论坛 用 户 的 帮助 。 你 可 以 通过 网 页 www.manning.com/MahoutinAction 进 
入 和 订阅 该 论坛 。 完 成 注册 后 , 你 可 以 了 解 如 何 使 用 该 论坛 、 该 论坛 所 能 提供 的 帮助 ， 以 及 论坛 的 
行为 规范 。 

Manning 出 版 社 承 诺 为 读者 和 作者 提供 一 个 进行 深入 对 话 的 场所 ， 但 不 对 作者 的 参与 程度 做 
BOR, 他 们 对 于 该 论坛 的 贡献 是 出 于 自愿 且 无 报酬 的 。 我 们 建议 读者 尽量 向 作者 提 一 些 具 有 挑战 
性 的 问题 ， 让 他 们 保持 兴趣 ! 

本 书 在 印 期 间 ， 读 者 均 可 访问 作者 在 线 论坛 ， 并 查看 之 前 的 讨论 。 


© 亦 可 在 图 灵 社 区 (iTuring.cn ) 本 书页 面 免费 注册 下 载 。 一 一 编者 注 


本 书 附带 的 多 媒体 资料 可 以 在 www.manning.com/MahoutinAction/extras/ 上 免费 收听 或 收看 。 
本 书 中 空白 处 的 音频 或 视频 文件 图 标 (如 下 所 示 )， 指 出 了 书 中 哪些 地 方 可 参考 附加 资料 。 


CR) Le] 


Audio icon Video icon 


No.1 音频 p2 

Sean 介 绍 了 Mahout 项 目 以 及 他 参与 的 事项 。 
No.2 音频 p19 

Sean 讨 论 了 推荐 系统 的 工作 。 
No.3 音频 p29 

Sean 曾 述 为 什么 他 认为 人 们 有 可 能 过 度 “ 聆 听 ” 数 据 。 
No.4 音频 p42 

Sean 谈 论 皮尔 逊 相关 系数 的 实现 。 
No.5 音频 p63 

Sean 讨 论 了 诠释 性 能 指标 的 价值 。 
No.6 音频 p84 

Sean 解 释 了 Mahout 和 Hadoop 之 间 的 关系 。 
No.7 音频 p108 

Robin 解 释 了 如 何 为 一 个 数据 集 选 择 正确 的 距离 测度 方法 。 
No.8 音频 pll4 

Robin 扩 展 了 苹果 的 类 比 示 例 。 
No.9 音频 p127 

Robinfi f% T k-means RARE. 
No.10 音频 p165 

Robin 讨 论 改善 聚 类 质量 的 策略 。 
No.11 音频 p179 
Robin 解 释 了 如 何 改进 大 规模 聚 类 的 性 能 。 
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视频 p208 

Ellen 展 示 了 如 何 训练 一 个 模型 使 之 逐步 优化 。 

视频 p234 

Ted 和 Ellen 展 示 了 Logistic 回 归 的 内 部 机 制 。 

视频 p238 

Ted 比 较 了 使 用 串 行 算 法 与 并 行 算法 的 优势 。 

音频 p249 

Ted 和 Ellen 讨 论 了 AUC 评 估 方 法 。 

音频 p252 

Ted 和 Ellen 讨 论 了 为 什么 对 数 似 然 法 意味 着 “ 永 不 说 不 ” 
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封面 上 是 “一 个 来 自 Rakov-Potok 的 男人 ”。Rakov-Potok 是 克罗地亚 北方 的 一 个 村 庄 。 该 图 取 
自 克 罗 地 亚 19 世 纪 中 叶 传统 服饰 影集 的 一 个 副本 ， 作 者 为 Nikola Arsenovic， 由 Ethnographic 博 物 
馆 在 2003 年 出 版 于 克罗地亚 的 斯 普 利 特 。 该 图 得 自 于 乐于 助人 的 Ethnographic 博 物 馆 馆 员 ， 这 个 
博物 馆 位 于 该 城镇 在 中 世纪 罗马 时 的 核心 位 置 , 是 公元 304 年 左右 罗马 皇帝 戴 克 里 先 的 宫殿 遗址 。 
这 本 书包 含 来 自 克 罗 地 亚 不 同 地 域 的 颜色 精美 的 插图 ， 附 有 服饰 和 日 常生 活 的 说 明 。 

Rakov-Potok 是 一 个 风景 如 画 的 乡村 ， 位 于 Samobor 山 脚下 、 萨 瓦 河 土地 肥沃 的 河谷 中 , E 
Zagreb 城 不 远 。 它 有 着 悠久 的 历史 ， 在 那里 ， 你 会 与 许多 城堡 、 教 党 和 中 世纪 甚至 罗马 时 期 的 
遗迹 不 期 而 遇 。 封 面 上 的 人 物 身 着 白色 羊毛 长 裤 和 白色 羊毛 外 套 ， 上 面 有 着 大 量 的 红色 和 蓝 色 
绣花 一 一 这 是 该 地 区 山区 居民 的 典型 装束 。 

过 去 200 年 间 ， 人 们 的 着 装 和 生活 方式 已 经 发 生变 化 ， 曾 经 如 此 丰富 的 地 域 多 样 性 已 渐渐 消 
失 了 。 现 在 ,各 大 洲 的 居民 已 经 很 难 分 辨 , 更 媚 论 不 同 小 村 或 距离 只 有 几 英 里 的 人 。 也 许 我 们 用 
文化 多 样 性 换 来 的 是 更 多 样 化 的 个 人 生活 一 一 必然 是 更 为 丰富 和 快 节奏 的 技术 生活 。 

Manning 出 版 社 在 此 类 古老 书籍 的 插图 中 取材 ， 基 于 两 个 世纪 前 丰富 多 样 的 地 域 生活 来 制作 
图 书 封 面 ， 借 此 颂扬 计算 机 行业 的 创造 力 和 首创 精神 。 
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初 识 Mahout 


本 章 内 容 

口 Apache Mahout 是 什么 ? 从 哪里 来 ? 
口 现实 中 的 推荐 引擎 、 聚 类 和 分 类 一 览 
口 Mahout 安 装 


大 概 你 已 经 从 书 名 中 猜 到 了 ， 本 书 主要 讲解 一 个 特殊 的 工具 一 一 Apache Mahout 一 一 在 现实 
生活 中 的 高 效应 用 。 它 具备 三 个 明显 的 特征 。 

首先 ，Mahout 是 一 个 来 自 Apache 的 、 开 源 的 机 器 学 习 ( machine learning ) 软件 库 。 它 所 实现 
的 算法 归属 于 机 器 学 习 或 集体 智慧 ( collective intelligence， 也 常常 译 为 群体 智慧 或 群体 智能 ) 这 
个 广阔 的 领域 。 这 意味 着 有 许多 事情 可 做 , 但 对 于 此 时 此 刻 的 Mahout, 它 主要 关注 于 推荐 引擎 ( 协 
同 过 滤 )、 聚 类 和 分 类 。 

其 次 , Mahout 是 可 扩展 的 。 它 旨 在 当 所 处 理 的 数据 规模 远大 于 单机 处 理 能 力 时 成 为 一 种 可 选 
的 机 器 学 习 工 具 。 在 当前 的 Mahout 系 统 中 ,这些 可 扩展 的 机 器 学 习 实 现 都 是 用 Java 来 写 的， 而 且 
有 些 部 分 是 建立 在 Apache 的 Hadoop 分 布 式 计算 项 目 之 上 的 。 

最 后 ， 它 是 一 个 Java 软 件 库 ， 并 不 提供 用 户 接口 、 预 装 服务 器 (prepackaged server) 或 安装 
程序 (installer )。 它 打算 为 开发 者 提供 一 个 可 用 可 改 的 工具 框架 。 

出 于 阶段 安排 的 需要 , 本 章 将 通过 一 些 常 见 的 真实 案例 简要 介绍 一 下 推荐 引擎 、 聚 类 和 分 类 
这 几 种 机 器 学 习 手 法 ， 而 Mahout 通 过 它们 帮助 你 处 理 数据 。 

若 要 在 阅读 本 书 时 做 到 对 Mahout 随 学 随 用 ， 还 要 做 一 些 必要 的 系统 搭建 与 安装 工作 。 


1.1 Mahout 的 故事 


首先 来 了 解 Mahout 的 背景 知识 。 你 可 能 还 搞 不 清 Mahout 该 如 何 发 音 : 就 是 其 通常 的 英语 发 
音 ( [ms'havt] )， 它 和 trout 押 韵 。 它 来 自 北 印度 语 ， 意 为 驱 象 人 ， 若 要 解释 它 ， 还 有 个 小 故事 。 

Mahout 是 2008 年 作为 Apache Lucene 的 子 项 目 出 现 的 。Lucene 项 目 推出 了 一 个 同名 的 著名 开 
源 搜索 引擎 ， 并 给 出 了 搜索 、 文 本 挖掘 (text mining) 和 信息 检索 技术 的 先进 实现 方法 。 在 计算 
机 科学 领域 ， 这 些 术 语 和 机 器 学 习 技 术 中 的 概念 很 相近 ， 比 如 聚 类 (clustering )， 并 在 某 种 程度 


ae 


2 5 1 717% Mahout 
上 与 分 类 (classification ) 相近 。 这 样 一 来 ， 某 些 Lucene 贡 献 者 的 工作 更 多 落 入 机 器 学 习 领 域 ， 
从 而 逐渐 脱离 出 来 形成 了 独立 的 子 项 目 。 之 后 不 入 ，Mahout 吸 纳 了 开源 的 协同 过 滤 项 目 Taste。 
CR 图 1-1 给 出 了 Mahout 在 ASF ( Apache Software Foundation ，Apache 软 件 基金 会 ) 中 的 部 分 传承 
No.1 关系 。 到 2010 年 4 月 ，Mahout 已 经 成 为 了 一 个 独立 的 顶级 Apache 项 目 ， 并 发 布 了 一 个 全 新 的 驱 象 


人 徽标 。 
Oo 
| j pue 
CEB) y — 
Sis 


AEN 


图 1-1 Apache Mahout 及 其 在 ASF 中 的 相关 项 目 


Mahout 所 做 的 大 量 工作 不 仅 体 现在 以 高 效 和 可 扩展 的 方式 实现 这 些 经 典 算法 ,而 且 将 部 分 算 
法 进行 转换 使 其 可 以 在 Hadoop 上 处 理 大 规模 的 问题 。Hadoop 的 吉祥 物 是 一 头 象 ，Mahout 项 目的 
名 字 便 由 此 而 来 ! 

从 Mahout 骨 化 出 了 许多 技术 和 算法 ， 其 中 有 许多 仍 在 开发 或 实验 阶段 ( https://cwiki.apache. 
org/confluence/display/MAHOUT/Algorithms )。 在 该 项 目的 早期 ， 有 3 个 明确 的 核心 主题 : 推荐 引 
警 (协同 过 滤 )、 聚 类 和 分 类 。 虽 然 它们 绝 非 Mahout 的 全 部 ， 但 在 本 书写 作 时 ， 它 们 是 最 突出 和 
最 成 熟 的 主题 ， 也 因此 成 为 了 本 书 的 焦点 。 

也 许 你 在 阅读 本 书 时 已 经 了 解 了 这 三 种 技术 的 魅力 ， 但 为 了 不 漏 掉 什 么 ， 请 继续 读 下 去 。 


1.2 Mahout 的 机 器 学 习 主 题 


虽然 Mahout 项 目 在 理论 上 可 以 实现 所 有 类 型 的 机 器 学 习 技术 ,但 实际 上 当前 它 仅 关注 机 器 学 
习 的 三 个 主要 领域 ， 即 推荐 引擎 ( 协同 过 滤 )、 素 类 和 分 类 。 


1.2.1 推荐 引擎 


在 目前 采用 的 机 器 学 习 技术 中 , 推荐 引擎 是 最 容易 一 眼 就 被 认 出 来 的 。 服 务 商 或 网 站 会 根据 
你 过 去 的 行为 向 你 推荐 书籍 、 电 影 或 文章 。 它 们 会 推测 你 的 品味 与 爱好 ,并 找到 某 些 你 可 能 感 兴 
趣 的 物品 。 
口 在 部 署 了 推荐 系统 的 电子 商务 网 站 中 ， 亚 马 逊 大 概 是 最 有 名 的 。 亚 马 逊 基于 交易 行为 和 
网 站 记录 为 你 推荐 你 可 能 感 兴趣 的 书籍 和 其 他 物品 ( 见 图 1-2 )。 
口 与 之 类 似 ，Netflix 为 用 户 推荐 其 可 能 感 兴趣 的 DVD， 为 了 鼓励 研究 者 改善 其 推荐 质量 ， 
它 给 出 了 一 份 1 000 000 美 元 的 奖金 ， 这 使 它 颇 具 盛 名 。 
O 像 Libimseti 这 样 的 约会 网 站 ( 稍 后 讨论 ) 还 能 把 一 个 人 推荐 给 另 一 个 人 。 
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O 而 Facebook 这 样 的 社交 网 络 则 利用 推荐 技术 为 你 找到 最 可 能 尚未 关联 的 朋友 。 
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图 1-2 ”亚马逊 的 推荐 结果 。 基 于 该 用 户 的 交易 历史 和 同类 顾客 的 一 些 行为 ， 亚 
马 逊 认为 该 用 户 会 对 这 个 推荐 结果 感 兴趣 。 它 甚至 可 以 列 出 这 次 推荐 的 
部 分 依据 ， 即 该 用 户 已 购 或 喜欢 的 类 似 物 品 


正如 亚马逊 等 网 站 所 展现 的 , 推荐 系统 通过 提供 绝 佳 的 交叉 销售 机 会 , 从 而 产生 实在 的 商业 
价值 。 某 公司 的 报告 显示 ， 向 用 户 推 荐 的 产品 能 够 使 销售 额 增长 8%~12%。” 


1.2.2 RÆ 


FR (clustering ) 的 概念 没有 那么 浅显 易 懂 , 但 它 也 是 在 同样 的 应 用 场景 下 出 现 的 。 顾 名 思 
义 ， 聚 类 技术 试图 将 大 量 的 事物 组 合 为 拥有 类 似 属性 的 复 (cluster ), 借以 在 一 些 规模 较 大 或 难于 
理解 的 数据 集 上 发 现 层次 结构 和 顺序 ， 以 揭示 一 些 有 用 的 模式 或 让 数据 集 更 易于 理解 。 
O Google News 使 用 聚 类 技术 通过 标题 把 新 闻 文 章 进 行 分 组 ， 从 而 按照 逻辑 线索 来 显示 新 
闻 ， 而 非 给 出 所 有 文章 的 原始 列表 。 如 图 1-3 所 示 。 
口 出 于 类 似 的 原因 ， 像 Clusty 这 样 的 搜索 引擎 也 将 其 查询 结果 进行 分 组 。 
O 聚 类 技术 可 以 根据 如 收入 、 居 住地 和 购买 习惯 等 属性 ， 将 消费 者 分 为 许多 段 (HR). 
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图 1-3 Google News 分 组 出 的 一 段 新 闻 样本 。 展 现 了 一 个 代表 性 事件 的 详细 片段 ， 
并 且 呈 现 了 该 主题 下 同一 个 集群 内 其 他 几 个 类 似 事件 的 链接 。 你 也 可 以 得 
到 在 该 主题 下 聚 类 在 一 起 的 所 有 事件 的 链接 


Q@ 实用 电子 商务 ,“10 Questions on Product Recommendations” ( 产品 推荐 十 问 )，http://mng.bz/b6A5。 
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聚 类 可 以 帮 你 在 一 大 堆 东 西 中 找到 脉络 ,甚至 层次 关系 ,否则 理解 这 些 数据 将 非常 困难 。 利 
用 这 种 技术 ,企业 可 以 发 现 用 户 中 潜在 的 群体 ,可 以 合理 地 组 织 大 量 文档 , 还 可 以 根据 日 志 来 发 
现 用 户 使 用 网 站 的 常见 模式 。 


1.2.3 分 类 


分 类 技术 决定 了 一 个 事物 多 大 程度 上 从 属于 某 些 类 别 或 类 型 , 或 者 多 大 程度 上 具有 或 不 具有 
某 些 属性 。 与 聚 类 一 样 ， 分 类 也 无 处 不 在 ,但 是 更 多 隐身 于 幕后 。 通 常 这 些 系统 会 考察 类 别 中 的 
大 量 实例 ， 来 学 习 推导 出 分 类 的 规则 。 这 种 通常 的 方法 有 许多 应 用 。 

口 雅虎 邮箱 基于 用 户 以 前 对 正常 或 垃圾 邮件 的 报告 ， 以 及 电子 邮件 自身 的 特征 ， 来 判别 到 

来 的 消息 是 否 为 垃圾 邮件 。 几 个 被 归 类 为 垃圾 邮件 的 消息 如 图 1-4 所 示 。 
O 谷歌 的 Picasa 和 其 他 照片 管理 应 用 可 以 判断 出 一 张 照片 中 是 否 包含 了 人 脸 。 
O OCR ( Optical Character Recognition ， 光 学 字符 识别 ) 软件 将 一 个 个 小 块 中 的 扫描 文本 分 


类 成 不 同 的 字符 。 

O 据 称 iTunes 中 苹果 公司 的 Genius 特 性 使 用 分 类 来 处 理 歌 曲 ， 为 用 户 生成 可 能 的 播放 列表 。 
on Spam (49) £ idid Hevnerco DishView Wed 10/28, 12:34 PM 
aiey Customer Service FINAL NOTIFICATION:..Please r... Wed 10/28, 4:53 AM 
Contacts Add MmddDdhbh From: MmddDdhb Read The File. Wed 10/28, 12:58 AM 


图 1-4 ”由 雅虎 邮件 检测 出 的 垃圾 消息 。 基 于 来 自用 户 的 垃圾 邮件 报告 ， 结 合 其 他 分 析 ， 
系统 就 能 习 得 一 些 通常 可 用 于 确定 垃圾 邮件 的 属性 。 例 如 ， 提 到 “Viagra” 的 消 
息 通 常 为 垃圾 邮件 ， 故 意 错 拼 为 “vlagra” 的 消息 也 一 样 。 这 些 词 项 (term ) PHY 
出 现 就 是 垃圾 邮件 过 滤器 可 以 习 得 的 一 个 属性 


分 类 有 助 于 判断 一 个 新 的 输入 或 新 的 事物 是 否 与 以 前 观察 到 的 模式 相 匹配 , 它 通常 还 被 用 于 
遵 选 异 常 的 行为 或 模式 ,来 检测 可 疑 的 网 络 活动 或 欺骗 行为 。 它 还 可 用 于 “察觉 ” 某 个 用 户 的 消 
息 是 否 存在 失望 或 满意 情绪 。 

如 果 输 入 数据 的 质量 好 , 这 些 技术 都 可 以 完美 地 处 理 大 量 数据 。 但 有 时 不 仅 需要 处 理 大 量 的 
输入 , 还 必须 快速 生成 结果 , 这 就 使 可 扩展 性 ( scalability ) 成 为 一 个 主要 问题 。 并 且 , 如 前 所 述 ， 
Mahout 存 在 的 一 个 重要 原因 是 能 够 为 这 些 技术 提供 实现 手段 , 从 而 使 之 向 上 扩展 到 处 理 庞 大 的 输 
入 数据 。 


1.3 利用 Mahout 和 Hadoop 处 理 大 规模 数据 
规模 问题 在 机 器 学 习 算 法 中 有 什么 现实 意义 ? 让 我 们 考虑 你 可 能 需要 部 署 Mahout 来 解决 的 


® 词 项 是 信息 检索 (information retrieval) 领域 的 标准 术语 , 意 指 用 于 表示 查询 或 文档 的 特征 , 实际 中 文本 常用 单词 
(word) 来 表示 词 项 ， 但 是 词 项 不 一 定 就 是 单词 。 严 格 地 说 ， 词 项 、 词 条 (token) 和 单词 都 不 完全 一 样 。 本 书 并 
没 严格 区 分 。 一 一 译 者 注 
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几 个 问题 的 大 小 。 

据 粗 略 估计 , Picasa 三 年 前 就 拥有 了 5 亿 张 照片 。 “这 意味 着 每 天 有 百 万 级 的 新 照片 需要 处 理 。 
一 张 照 片 的 分 析 本 身 不 是 一 个 大 问题 ,即使 重复 几 百 万 次 也 不 算 什 么 。 但 是 在 学 习 阶 段 可 能 需要 
同时 获取 数 十 亿 张 照片 中 的 信息 ， 而 这 种 规模 的 计算 是 无 法 用 单机 实现 的 。 

据 报 道 ，Google News 每 天 都 会 处 理 大约 350 万 篇 新 的 新 闻 文 章 。 虽 然 它 的 绝对 词 项 数量 看 似 
不 大 , 但 试想 一 下 , 为 了 及 时 提供 这 些 文章 , 它们 连同 其 他 近期 的 文章 必须 在 几 分 钟 的 时 间 内 完 
成 聚 类 。 

Netflix 为 Netflix Prize 公 布 的 评分 数据 子 集中 包含 了 1 亿 个 评分 。 因 为 这 仅仅 是 针对 竞赛 而 公 
布 的 数据 ， 据 推测 Netflix 为 形成 推荐 结果 所 需 处 理 的 数据 总 量 与 之 相 比 还 要 大 出 许多 售 。 

机 器 学 习 技术 必须 部 署 在 诸如 此 类 的 应 用 场景 中 , 通常 输入 数据 量 都 非常 庞大 , 以 至 于 无 法 
在 一 台 计 算 机 上 完全 处 理 , 即使 这 台 计 算 机 非常 强大 。 如 果 没 有 Mahout 这 类 的 实现 手段 , 这 将 是 
一 项 无 法 完成 的 任务 。 这 就 是 Mahout 将 可 扩展 性 视 为 重 中 之 重 的 道理 , 以 及 本 书 将 焦点 放 在 有 效 
处 理 大 数据 集 上 的 原因 ， 这 一 点 与 其 他 书 有 所 不 同 。 

将 复杂 的 机 器 学 习 技术 应 用 于 解决 大 规模 的 问题 , 目前 仅 为 大 型 的 高 新 技术 公司 所 考虑 。 但 
是 ， 今 天 的 计算 能 力 与 以 往 相 比 ， 已 廉价 许多 ， 且 可 以 借助 于 Apache Hadoop 这 种 开源 框架 更 轻 
松 地 获取 。Mahout 通 过 提供 构筑 在 Hadoop 平 台 上 的 、 能 够 解决 大 规模 问题 的 高 质量 的 开源 实现 
以 期 完成 这 块 拼 图 ， 并 可 为 所 有 技术 团体 所 用 。 

Mahout 中 的 有 些 部 分 利用 了 Hadoop ， 其 中 包含 一 个 流行 的 MapReduce 分 布 式 计算 框架 。 
MapReduce 被 谷歌 在 公司 内 部 得 到 广泛 使 用 ( http://labs.google.com/papers/mapreduce.html )， 而 
Hadoop 是 它 的 一 个 基于 Java 的 开源 实现 。MapReduce 是 一 个 编程 范式 ， 初 看 起 来 奇怪 ， 或 者 说 简 
单 得 让 人 很 难 相信 其 强大 性 。MapReduce 范 式 适 用 于 解决 输入 为 一 组 “ 键 - 值 对 ”的 问题 ，map 
函数 将 这 些 键 值 对 转换 为 另 一 组 中 间 键 值 对 ，reduce 函 数 按 某 种 方式 将 每 个 中 间 键 所 对 应 的 全 部 
值 进行 合并 ， 以 产生 输出 。 实 际 上 ， 许 多 问题 可 以 归结 为 MapReduce 问 题 ， 或 它们 的 级 联 。 这 个 
范式 还 相当 易于 并 行 化 : 所 有 处 理 都 是 独立 的 ， 因 此 可 以 分 布 到 许多 机 器 上 。 这 里 不 再 著述 
MapReduce ， 建 议 读者 参考 一 些 入 门 教程 来 了 解 它 ， 如 Hadoop 所 提供 的 http://hadoop.apache.org 
/mapreduce/docs/current/mapred tutorial.html。 

Hadoop 实 现 了 MapReduce 范 式 , 即便 MapReduce 听 上 去 如 此 简单 , 这 仍然 称 得 上 是 一 大 进步 。 
它 负责 管理 输入 数据 、 中 间 键 值 对 以 及 输出 数据 的 存储 ; 这 些 数 据 可 能 会 非常 庞大 ,并 且 必 须 可 
被 许多 工作 节点 访问 , 而 不 仅仅 存放 在 某 个 节点 上 。Hadoop 还 负责 工作 节点 之 间 的 数据 分 区 和 传 
输 , 以 及 各 个 机 器 的 故障 监测 与 恢复 。 理解 其 背后 的 工作 原理 , 可 以 帮 你 准备 好 应 对 使 用 Hadoop 
可 能 会 面 对 的 复杂 情况 。Hadoop 不 仅仅 是 一 个 可 在 工程 中 添加 的 库 。 它 有 几 个 组 件 , 每 个 都 带 有 
许多 库 , 还 有 ( 几 个 ) 独立 的 服务 进程 , 可 在 多 台 机 器 上 运行 。 基于 Hadoop 的 操作 过 程 并 不 简单 ， 
但 是 投资 一 个 可 扩展 、 分 布 式 的 实现 ,可 以 在 以 后 获得 回报 : 你 的 数据 可 能 会 很 快 增长 到 很 大 的 


GD Google Blogoscoped, “Overall Number of Picasa Photos” ( 2007 年 3 月 12 日 )， 参 见 http://blogoscoped.com/archive/ 
2007-03-12-n67.html。 
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规模 ， 而 这 种 可 扩展 的 实现 让 你 的 应 用 不 会 落伍 。 

“在 第 6 章 ， 本 书 将 尝试 克服 这 种 复杂 性 ， 让 你 可 以 很 快 地 在 Hadoop 上 运行 程序 ， 之 后 你 可 以 
探索 或 研究 关于 集群 操作 和 框架 调 优 的 细节 。 鉴于 这 种 需要 大 量 计算 能 力 的 复杂 框架 正 变 得 越 来 
越 普遍 , 云 计算 提供 商 开 始 提供 Hadoop 相 关 的 服务 就 不 足 为 奇 了 。 例 如 , 亚马逊 提供 了 一 种 管理 
Hadoop 集 群 的 服务 Elastic MapReduce ( http://aws.amazon.com/elasticmapreduce/ )， 该 服务 提供 了 
强大 的 计算 能 力 , 并 使 我 们 可 通过 一 个 友好 的 接口 在 Hadoop 上 操作 和 监控 大 规模 作业 , 而 这 原本 
是 一 个 非常 复杂 的 任务 。 


1.4 安装 Mahout 


之 后 的 章节 将 会 出 现 一 些 代码 , 你 需要 先 配 备 一 些 工具 才能 随意 使 用 这 些 代码 。 我 们 假设 你 
对 Java 开 发 环境 已 经 很 熟悉 了 。 

Mahout 及 其 相关 框架 是 基于 Java 实 现 的 ,因此 具有 平台 独立 性 ， 你 能 够 在 任何 一 个 可 运行 较 
新 版 JVM 的 平台 上 使 用 它 。 不 过 , 我 们 有 时 仍然 需要 针对 平台 之 间 的 差异 性 给 出 示例 和 解释 。 特 
别 是 在 Windows shelL 上 ， 其 命令 行 命令 与 FreeBSD tesh shell 的 不 同 。 我 们 会 使 用 bash 中 可 用 的 命 
令 和 语法 ， 它 是 大 多 数 类 Unix 平 台所 采用 的 shell。 默 认 情况 下 ， 大 多 数 Linux 发 布 包 、Mac OS X, 
许多 Unix 变 种 和 Cygwin ( Windows 上 一 种 流行 的 类 Unix 环 境 ) 都 使 用 它 。 打 算 使 用 Windows shell 
的 用 户 对 此 很 可 能 不 习惯 。 不 过 , 这 些 用 户 仍 可 以 简单 地 使 用 本 书 所 提供 的 代码 清单 ， 把 命令 翻 
译 为 在 bash shell 中 可 用 的 形式 。 


1.4.1 Java 和 IDE 


如 果 做 过 Java 开 发 ， 你 的 个 人 电脑 上 很 可 能 已 经 安装 了 Java 环 境 。 注 意 ，Mahout 需 要 Java 6 
的 支持 。 如 果 你 不 确定 使 用 了 哪个 Java 版 本 ， 可 以 打开 一 个 终端 并 输入 java-version 查 看 。 如 
果 显 示 的 版 本 低 于 1.6， 你 仍 需要 安装 Java 6。 

Windows 和 Linux 用户 可 以 在 Oracle 找 到 Java 6 的 JVM , W| LE X http://www.oracle.com/ 
technetwork/java/, 358 Mac OS X 10.3S 和 10.6 提 供 了 Java 6 的 JVM。 在 Mac OSX， 如 果 显 示 所 用 
版 本 不 是 Java 6， 可 以 在 /Applications/Uftilities 文 件 夹 下 打开 Java Preferences 应 用 。 这 里 允许 你 将 
Java 6 设 为 默认 选项 。 

借助 IDE (集成 开发 环境 ), 大 多 数 人 可 以 轻松 地 编辑 、 编 译 和 运行 本 书 的 示例 ; 我 们 强烈 推 
荐 你 使 用 IDE。Eclipse (http:/www.eclipse.org ) 是 最 流行 的 免费 Java IDE。 本 书 不 会 涉及 Eclipse 
的 安装 和 配置 ， 但 继续 阅读 本 书 之 前 ， 你 最 好 花 点 时 间 熟 悉 它 。NetBeans〈 http://netbeans.org/ ) 
也 是 一 个 流行 的 免费 IDE。 男 一 个 强大 而 流行 的 DE 是 IntelliJ IDEA ( http://www.jetbrains.com/ 
idea/index.html )， 目 前 可 获得 免费 的 社区 版 本 。 

举 一 个 使 用 IDE 的 例子 ，IDEA 可 以 从 现 有 的 Maven 模 型 中 创建 一 个 新 的 项 目 ; 如 果 你 在 创建 
项 目 时 指定 了 Mahout 源 码 的 根 目 录 , 它 会 将 整个 项 目 按 组 织 好 的 方式 进行 自动 配置 和 展示 。 因 此 ， 
我 们 可 以 将 本 书 中 所 有 的 源 代码 放 入 examples/src/main/java/ 源 码 根 目录 中 ,并 在 IDEA 中 一 键 式 运 
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行 一 一 依赖 关系 和 编译 的 细节 都 会 得 到 自动 管理 。 这 比 手动 编译 和 运行 代码 要 容易 得 多 。 


注意 如 果 测 试 程序 使 用 输入 数据 中 的 一 个 文件 ， 它 通常 应 该 在 与 数据 文件 相同 的 目录 中 运行 。 
查看 你 所 用 IDE 的 手册 ， 了 解 如 何 为 每 个 示例 配置 一 个 工作 目录 。 


1.4.2 ”安装 Maven 


如 同 许多 Apache 的 项 目 一 样 ，Mahout 利 用 Maven ( http://maven.apache.org ) 来 构建 和 发 布 项 
目 。Maven 是 一 个 命令 行 工具 ， 它 管理 依赖 关系 、 编 译 代 码 、 形 成 软件 包 、 生 成 文档 并 发 布 正式 
版 本 。 虽 然 它 表 面 上 类 似 于 同样 流行 的 工具 Ant， 实 际 却 并 不 与 之 相同 。Ant 是 一 个 灵活 的 低级 脚 
本 语言 ， 而 Maven 是 一 个 更 重视 依赖 关系 和 发 布 管理 的 高 级 工具 。 鉴 于 Mahout 使 用 了 Maven， 你 
最 好 把 它 安 装 好 。 

Mac OS X 的 用 户 会 很 高 兴 地 发 现 Maven 已 经 安装 好 了 。 如 果 没 有 , 可 以 安装 苹果 的 Developer 
Tools。 在 命令 行 输入 mvn --verison。 如 果 你 成 功 地 看 到 版 本 号 ， 且 版 本 大 于 或 等 于 2.2， 你 就 
可 以 使 用 它 了 。 和 否则 ， 你 需要 在 本 地 安装 Maven。 

用 户 若 使 用 一 个 带 有 适当 包 管 理 系统 的 Linux 发 行 版 ， 便 可 以 很 快 获得 一 个 Maven 的 当前 版 
本 ; 否则 就 需要 按照 标准 的 流程 进行 安装 , 即 下 载 一 个 二 进 制 发 行 版 , 在 一 个 类 似 /usr/local/maven 
的 公共 目录 中 解压 , 再 编辑 bash 的 配置 文件 ~/.bashrc 并 添加 一 行 , 如 export PATH=/usr/local/ 
maven/bin:$PATH。 它 确保 你 随时 可 以 使 用 mvn 命 令 。 

如 果 你 正在 使 用 Eclipse 或 IntelliJ 这 样 的 IDE 环 境 , Maven 已 经 被 集成 在 其 中 了 。 参考 其 文档 可 
以 了 解 如 何 打 开 Maven 集 成 的 功能 。 这 会 大 大 简化 Mahout 在 IDE 中 的 使 用 ， 因 为 IDE 可 以 使 用 一 
个 项 目 中 的 Maven 配 置 文件 (pom.xml )， 来 即刻 配置 并 导入 这 个 项 目 。 


注意 ”对 于 Eclipse， 你 需要 安装 m2eclipse 插 件 (http://www.eclipse.org/m2e/ )。 对 于 NetBeans， 自 
6.7 版 之 后 就 已 经 支持 了 Maven; 而 对 于 以 前 的 版 本 ， 你 需要 额外 安装 一 个 插件 。 


1.4.3 ”安装 Mahout 


Mahout 仍 在 不 断 发 展 ， 本 书 使 用 的 是 Mahout 的 0.5 发 布 版 。 在 https://cwiki.apache.org/ 
confluence/display/MAHOUT/Downloads 上 可 以 找到 下 载 这 个 发 布 版 及 其 他 版 本 的 提示 ; 你 可 以 在 
计算 机 上 找 一 个 方便 的 地 方 将 源码 的 压缩 包 解 压 。 

因为 Mahout 的 变更 很 频繁 ,定期 会 加 入 bug 修 复 和 一 些 改进 ,也许 使 用 0.5 的 后 续 版 本 会 更 好 
(甚至 可 以 用 Subversion 上 仍 未 发 布 的 最 新 代码 2 J https://cwiki.apache.org/confluence/ 
display/MAHOUT/Version+Control )。 后 续 的 发 布 包 可 以 向 后 兼容 地 运行 本 书 所 提供 的 示例 。 

一 旦 你 获得 了 源码 ， 无 论 是 从 Subversion 还 是 从 发 布 包 获得 ， 都 可 以 在 IDE 中 为 Mahout 创 建 
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一 个 新 项 目 。IDE 各 不 相同 ， 参 考 其 文档 可 以 掌握 它们 在 创建 项 目 中 的 特殊 用 法 。 最 简单 的 办 法 
是 使 用 IDE 所 集成 的 Maven， 从 项 目 源 代码 根 目录 中 的 pom.xml 文 件 导 入 Maven 项 目 。 

一 旦 完成 了 这 些 步 又 , 你 就 可 以 很 轻松 地 在 这 个 项 目 中 创建 一 个 新 的 源 代码 目录 , 用 来 存放 
后 续 章 节 中 所 介绍 的 示例 代码 。 正 确 地 配置 这 个 项 目 ,以 便 可 以 顺利 地 编译 并 运行 这 些 代码 ,这 
样 你 就 无 须 付 出 额外 的 努力 。 

这 些 示例 的 源 代 码 可 以 从 Manning 的 网 站 (http:/www.manning.com/MahoutinAction/ ) 或 
GitHub ( https://github.com/tdunning/MiA ) 上 获得 。 你 可 以 根据 源码 所 提供 的 指导 来 建立 你 的 工 
作 环 境 。 


1.4.4 安装 Hadoop 


你 需要 在 本 地 安装 一 个 Hadoop ， 来 完成 本 书 稍 后 所 涉及 的 操作 。 你 不 必用 一 个 集群 来 运行 
Hadoop。 安装 Hadoop 虽 不 困难 , 但 却 有 些 烦 琐 。 这 里 并 不 重复 这 个 过 程 , 我 们 将 指导 你 从 Hadoop 
网 站 http://hadoop.apache.org/common/releases.html 获 取 一 个 0.20.2 版 的 Hadoop 副 本 , 并 遵照 单 节 点 
安装 文档 ( http://hadoop.apache.org/common/docs/current/single_node_setup.html ) 来 安装 一 个 伪 分 
布 模式 的 Hadoop。 


1.5 小结 


Mahonut 来 自 Apache, 它 是 一 个 年轻” 开源 、 可 扩展 的 机 器 学 习 库 , 而 本 书 将 指引 你 在 Mahout 
上 使 用 机 器 学 习 技 术 解 决 实际 问 题 。 特 别 地 ， 你 会 很 快 了 解 推荐 引擎 、 聚 类 和 分 类 。 如 果 你 是 一 
个 熟知 机 器 学 习 理论 的 研究 者 ,正在 寻找 一 个 实用 的 how-to 指 南 , 或 者 是 一 个 希望 快速 掌握 从 业 
者 宝贵 经 验 的 开发 者 ， 那 么 这 本 书 正 是 为 你 而 写 。 

这 些 技术 已 经 不 再 只 是 理论 。 我 们 已 经 知道 在 现实 世界 中 有 许多 广为人知 的 机 器 学 习 案例 ， 
它们 采用 了 推荐 引擎 、 聚 类 和 分 类 : 电子 商务 、 电 子 邮 件 、 视 频 网 站 、 照 片 网 站 以 及 更 多 。 这 些 
技术 已 经 被 用 于 解决 实际 问题 ， 甚 至 为 企业 创造 价值 一 一 现在 它们 都 可 以 借助 Mahout 来 实现 。 

我 们 已 经 发 现 这 些 技术 有 时 会 涉及 大 量 的 数据 一 一 可 扩展 性 是 这 个 领域 中 一 个 独特 而 永恒 
的 话题 .初步 审视 MapReduce 和 Hadoop ,我 们 了 解 到 它们 是 如 何 承载 了 Mahout 所 提供 的 可 扩展 性 。 

因为 本 书 注重 实际 操作 , 所 以 我 们 让 你 一 上 来 就 准备 好 去 使 用 Mahout。 现 在 ,你 应 该 已 经 安 
装 了 Mahout 工 作 所 需 的 工具 ， 并 准备 开始 行动 了 。 因 为 本 书 旨 在 实战 ， 让 我 们 现在 就 结束 开篇 ， 
来 看 看 Mahout 的 实际 代码 。 请 看 后 续篇 章 ! 


推荐 


本 书 第 一 部 分 涵盖 第 2 章 至 第 6 音 ， 探 讨 Apache Mahout 机 器 学 习 实现 的 三 大 支柱 之 一 : Hh 
同 过 滤 (collaborative filtering) 和 推荐 (recommendation) , 通过 这 些 技术 ， 你 能 够 了 解 一 个 人 
的 品味 ， 并 自动 找到 新 内 容 来 投 其 所 好 。 本 部 分 仍 为 后 续 音 节 的 铺垫， 后 续 章节 将 高 度 依赖 于 
Apache Hadoop 的 分 布 式 计算 框架 。 我 们 先 通过 简单 的 Java 程 序 来 了 解 Apache Mahout 的 机 器 学 
习 ， 再 使 用 Hadoop 来 实现 它 。 

第 2 章 介绍 由 Mahout 实 现 的 推荐 引擎 (recommender engine) , 并 在 一 个 可 运行 的 示例 中 
评价 性 能 。 第 3 章 讨论 Mahout 中 推荐 程序 (recommender) 的 高 效 数 据 表示 。 第 4 章 分 类 说 明 
Mahout 中 推荐 引擎 的 各 种 实现 及 其 不 同 的 属性 特征 。 

第 5 章 给 出 一 个 实例 ， 其 数据 来 自 一 个 约会 网 站 ， 由 此 讨论 如 何 采用 Mahout 中 的 方法 来 
处 理 真实 数据 ， 从 而 形成 一 个 可 供 生 产 环境 使 用 的 推荐 程序 。 最 终 ， 第 6 章 会 初步 在 Apache 
Hadoop 上 使 用 Mahout， 以 实现 一 个 大 型 的 分 布 式 推荐 引擎 。 


本 章 内 容 

口 Mahout 中 的 推荐 系统 

口 推荐 系统 实战 初探 

口 评估 推荐 引擎 的 精度 和 质量 

口 评估 基于 实际 数据 集 GroupLens 的 推荐 程序 


我 们 每 天 都 对 事物 形成 观点 : 喜欢 、 不 喜欢 ， 甚 或 不 关心 。 这 都 是 无 意识 中 发 生 的 。 当 你 在 
广播 中 听 到 一 首 歌 时 ， 你 可 能 因为 它 动听 而 注意 它 , 也 可 能 因为 它 难听 而 注意 它 , 也 有 可 能 压根 
儿 就 没有 注意 到 它 。 同 样 的 情形 还 适用 于 T 恤 衫 、 色 拉 、 发 型 、 滑 雪 场 、 容 貌 和 电视 节目 。 

人 们 的 嗜好 各 蜡 ， 却 有 规律 可 循 。 人 们 倾向 于 喜欢 那些 与 其 爱好 相似 的 东西 。 由 于 Sean 喜 欢 
吃 火 腿 - 黄 曹 -番茄 三 明治 ， 你 就 可 以 猜测 他 可 能 会 喜欢 总 会 三 明治 〈club sandwich )， 因 为 它们 
基本 上 是 一 样 的 ， 只 是 后 者 使 用 了 火 鸡肉 。 而 且 ， 人 们 容易 爱 上 类 似 人 群 所 喜欢 的 东西 。 

这 些 模式 可 用 于 预测 人 们 的 好 恶 。 推 荐 就 是 通过 对 嗜好 的 这 些 模式 进行 预测 , 借以 发 现 你 尚 
未 知晓 ， 却 合乎 心意 的 新 事物 。 

在 更 深入 地 介绍 推荐 思想 之 后 , 本 章 将 帮助 你 体验 Mahout 的 一 段 代 码 , 用 以 运行 一 个 简单 的 
推荐 引擎 并 了 解 其 执行 效果 ， 从 而 让 你 直观 感受 一 下 Mahout 是 如 何 实现 推荐 的 。 


2.1 推荐 的 定义 


你 从 书架 上 拿 起 这 本 书 是 有 原因 的 。 也许 它 恰 好 放 在 对 你 有 用 的 其 他 书籍 的 旁边 , 而 你 明白 
之 所 以 书店 会 把 它 放 在 那里 , 是 因为 喜欢 那些 书 的 人 很 可 能 也 会 喜欢 这 本 书 。 或 许 它 恰 好 放 在 你 
同事 的 书架 上 ， 而 你 们 在 机 器 学 习 方 面 志 趣 相投 ， 也 有 可 能 是 他 们 直接 向 你 推荐 了 本 书 。 

这 些 策 略 虽然 各 不 相同 ， 但 在 发 掘 新 鲜 事 物 上 都 是 有 效 的 : 要 找到 你 可 能 喜欢 的 物品 ， 
你 可 以 观察 与 你 志趣 相投 的 人 喜欢 些 什么 。 另 一 方面 ， 通 过 观察 其 他 人 的 明显 偏好 ， 你 可 以 弄 
清楚 哪些 东西 和 你 已 然 喜欢 的 物品 相似 。 实 际 上 上， 它们 是 推荐 引擎 算法 中 应 用 最 广 的 两 大 类 : 
基于 用 户 (user-based ) 和 基于 物品 (item-based ) 的 推荐 程序 ， 它 们 均 在 Mahout 中 得 到 了 充分 
展现 。 
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严格 说 来 ， 上 述 场景 均 为 协同 过 滤 的 范例 一 一 仅仅 通过 了 解 用 户 与 物品 之 间 的 关系 进行 推 
荐 。 这 些 技术 无 须 了 解 物品 自身 的 属性 。 从 某 种 意义 上 讲 ， 这 是 一 个 优点 。 该 推荐 框架 并 不 关心 
物品 是 否 为 书籍 、 主 题 公园 、 鲜 花 或 其 他 人 ， 因 为 根本 不 会 导入 它们 的 属性 。 

其 他 一 些 方法 则 立足 于 物品 的 属性 , 通常 称 为 基于 内 容 (content-based ) 的 推荐 技术 。 例 如 ， 
如 果 有 朋友 向 你 推荐 本 书 ， 原 因 是 它 是 Manning 出 版 的 ， 而 且 他 也 喜欢 Manning 出 版 的 其 他 书 ， 
那么 这 个 朋友 所 做 的 就 是 类 似 于 基于 内 容 的 推荐 。 它 给 你 的 建议 是 基于 书 的 属性 ， 即 基于 “出 版 
商 ” 作 出 的 。 

基于 内 容 的 推荐 技术 没有 什么 问题 , 相反 , 它们 很 有 用 。 但 是 , 它们 必须 与 特定 领域 相 结合 ， 
而 难以 规整 为 一 个 框架 。 为 了 构造 一 个 有 效 的 基于 内 容 的 图 书 推荐 程序 ， 人 们 不 得 不 确定 图 书 的 
哪 种 属性 ( 页 数 、 作 者 、 出 版 商 、 颜 色 、 字 体 ) 是 有 意义 的 ， 以 及 有 多 大 意义 。 这 些 知 识 无 法 转 
换 以 用 于 其 他 领域 ， 比 如 这 种 推荐 图 书 的 方法 对 于 推荐 比萨 配料 毫 无 用 处 。 

因此 ，Mahout 对 基于 内 容 的 推荐 所 言 甚 少 。 这 些 思 想 能 够 融入 并 构建 在 Mahout 之 上 ; 故而 ， 
Mahout 在 技术 上 可 称 为 一 种 协同 过 滤 框 架 。 第 5 章 会 给 出 一 个 示例 ， 指 导 你 为 约会 网 站 创建 一 个 
推荐 程序 。 

但 在 现 阶段 , 我 们 先生 成 一 些 简单 的 输入 并 据 此 找 出 推荐 结果 , 来 体验 一 下 Mahout 中 的 协同 
过 滤 。 
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Mahout 包 含 一 个 推荐 引擎 ,其 中 有 几 种 类 型 实际 来 自 于 传统 的 基于 用 户 和 基于 物品 的 推荐 程 
序 。 它 也 包含 了 其 他 几 种 算法 实现 ， 但 是 现在 我 们 先 看 一 个 简单 的 基于 用 户 的 推荐 程序 。 


2.2.1 创建 输入 


为 了 探究 Mahout 中 的 推荐 ， 最 好 从 一 个 简单 的 例子 开始 。 

推荐 程序 需要 有 输入 构成 推荐 的 基础 数据 。 在 Mahout 的 语言 中 ， 数 据 是 以 偏好 
(preference ) 的 形式 来 表达 的 。 因 为 最 常见 的 推荐 引擎 总 是 把 项 目 推荐 给 用 户 ， 所 以 谈论 偏好 最 
简便 的 方法 是 建立 从 用 户 到 物品 的 关联 , 尽管 如 前 所 述 ， 这些 用 户 和 物品 是 可 以 任意 指定 的 。 一 
个 偏好 包含 一 个 用 户 ID 、 一 个 物品 ID , 通常 还 有 一 个 表达 用 户 对 物品 的 偏爱 程度 的 数值 。 实 际 上 ， 
Mahout 中 的 ID 通 常 也 为 数字 整数 。 偏 好 值 (preference value ) 可 任意 设 定 ， 只 需 保 证 更 大 的 
值 代表 更 强 的 正 向 偏好 。 例如 ,这些 值 可 能 按 从 1 到 5 来 定 级 ,其 中 1 表示 用 户 非常 不 喜欢 该 物品 ， 
而 5 表示 物品 是 用 户 的 至 爱 。 

创建 一 个 包含 关于 用 户 数 据 的 文本 文件 ,巧妙 地 从 1 到 5 为 用 户 命 名 ,从 101 到 107 为 他 们 喜 
欢 的 7 本 书 命名 。 在 现实 世界 ， 这 些 数据 可 能 是 来 自 某 公司 数据 库 的 顾客 ID 和 产品 ID; Mahout 
并 不 要 求 用 户 和 物品 必须 按照 数字 命名 。 我 们 用 一 种 简单 的 以 逗号 分 隔 值 的 格式 把 这 些 数据 写 
人 文件 。 

复制 下 面 的 示例 到 一 个 文件 中 并 将 之 存 为 intro.csv。 
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代码 清单 2-1 推荐 程序 的 输入 文件 intro.csv 


-0 


1,101, 
1,102, 
1, 103:, 


YNNN 


105 
107 


mminn u A A 心 心 w w ww 


,101, 
,102, 
, 103, 
,104, 


, 101, 
,104, 


TOL; 
103, 
104, 
106, 


101, 
, 102, 
, 103, 
,104, 
r105; 
, 106, 


用 户 1 对 物品 102 的 用 户 ID、 物 品 ID、 偏 好 值 
偏好 值 为 3.0 


一 番 研 究 之 后 ， 倾 向 就 明显 了 。 用 户 1 和 5 似乎 有 相似 的 喜好 。 他 们 都 最 喜欢 101 这 本 书 ， 其 
次 喜欢 102， 再 次 喜欢 103。 同 样 ， 对 于 用 户 1 和 4， 他 们 似乎 都 喜欢 101 和 103( 但 用 户 4 对 102 的 关 
系 不 明 )。 另 一 方面 ， 用 户 1 和 2 的 喜好 基本 上 是 对 立 的 : 用 户 1 喜 欢 101， 而 用 户 2 对 其 不 感 兴趣 ; 
用 户 1 喜欢 103， 而 用 户 2 则 恰恰 相反 。 用 户 1 和 3 的 喜好 连 异 一 一 他 们 仅 同 时 喜欢 101。 图 2-1 显 示 
了 用 户 和 物品 之 间 正 面 和 负面 的 关系 。 


图 2-1 


用 户 1 到 5 和 物品 101 到 107 的 关系 。 虚 线 表 示 看 似 负面 的 关系 ， 即 用 
户 似乎 不 太 喜 欢 这 个 物品 ， 但 也 表达 了 对 物品 的 态度 
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2.2.2 创建 一 个 推荐 程序 


那么 ,可 以 为 用 户 1 推荐 什么 书 呢 ? 不 是 101、102 和 103 ， 因 为 用 户 1 显然 已 经 知道 这 些 书 了 ， 
而 推荐 是 用 来 发 现 新 事物 的 。 直 观 上 看 ， 既 然 用户 4 和 5 与 用 户 1 类 似 ， 那 么 把 用 户 4 或 5 喜欢 的 东 
西 推荐 给 用 户 1 是 个 好 主意 。 这 样 一 来 ， 可 能 的 推荐 结果 就 是 书 104、105 和 106。 总 体 上 看 ，104 
似乎 最 有 可 能 ， 因 为 物品 104 对 应 的 偏好 值 是 4.5 和 4.0。 

现在 ,运行 如 下 代码 。 


代码 清单 2-2 一 个 简单 的 基于 用 户 的 Mahout 推 荐 程序 - 
class RecommenderiIntro { 
public static void main(String[] args) throws Exception { 


DataModel model = 

new FileDataModel (new File("intro.csv")); < 一 一 装载 数据 文件 
UserSimilarity similarity = 

new PearsonCorrelationSimilarity (model); 
UserNeighborhood neighborhood = 

new NearestNUserNeighborhood (2, similarity, model); 


Recommender recommender = new GenericUserBasedRecommender ( 


model, neighborhood, similarity); 
‘ ; i 生成 推荐 引擎 
List<RecommendedItem> recommendations = 
recommender.recommend(1, 1); 
for (Recommendeditem recommendation : recommendations) { | aaa 
System. out.println (recommendation); 


} 


} 


图 2-2 形 象 地 表示 了 这 些 基 础 组 件 之 间 的 关系 。 并 非 所 有 基于 Mahout 的 推荐 程序 都 是 如 此 ， 
有 些 会 采用 不 同 的 组 件 、 不 同 的 关系 。 但 这 个 例子 先 让 我 们 对 此 有 一 些 感觉 。 


图 2-2 ”Mahout 基 于 用 户 推荐 程序 中 组 件 间 关系 的 简单 示意 图 


在 接 下 来 的 两 章 中 , 我 们 将 详细 地 逐一 讨论 这 些 组 件 , 但 现在 先 对 每 个 组 件 的 角色 做 一 个 概 
览 。 DataMode1 实 现存 储 并 为 计算 提供 其 所 需 的 所 有 偏好 、 用 户 和 物品 数据 。Usersimilarity 
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实现 给 出 两 个 用 户 之 间 的 相似 度 ， 可 从 多 种 可 能 度量 或 计算 中 选用 一 种 来 作为 依据 。 
UserNeighborhood 实 现 明 确 了 与 给 定 用 户 最 相似 的 一 组 用 户 。 最 后 ，Recommender 实 现 合并 
所 有 这 些 组 件 为 用 户 推荐 物品 。 


2.2.3 分析 输出 
当 运 行 代码 清单 2-2 中 的 代码 时 ， 你 的 终端 或 IDE ( 集成 开发 环境 ) 会 输出 如 下 结果 : 


RecommendedItem [item:104, value:4.257081] 

该 请 求 寻找 一 个 最 优 的 推荐 结果 ,并 最 终 找到 了 一 个 。 推 荐 引擎 把 书 104 推 荐 给 用 户 1。 而 且 
推荐 引擎 之 所 以 这 样 做 ， 是 因为 它 估计 出 用 户 1 对 书 104 的 偏好 值 约 为 4.3， 而 这 在 所 有 适合 推荐 
的 物品 中 是 最 高 的 。 

推荐 结果 还 不 错 。 没 有 出 现 书 107; 它 虽然 也 在 可 被 推荐 之 列 ， 但 它 仅 和 一 个 嗜好 不 同 的 用 
户 相 关 。 推 荐 引 警 选择 104 而 没 选 106 也 是 合理 的 ， 因 为 能 看 到 104 的 总 体 评分 略 高 。 此 外 ， 输 出 
还 包含 了 一 个 合理 的 估计 ， 即 用 户 1 有 和 多 喜欢 物品 104 一 一 大 致 在 用 户 4 和 5 所 表达 的 偏好 值 4.0 和 
4.5 之 间 。 

从 数据 中 不 能 一 眼看 出 正确 答案 , 但 是 推荐 引擎 找到 了 它 的 踪迹 , 并 返回 了 一 个 合理 的 答案 。 
这 个 简单 的 程序 找到 了 一 个 不 易 发 现 的 有 用 结果 , 如 果 你 为 此 感到 欢欣 鼓舞 , 那 就 表示 机 器 学 习 
的 世界 很 适合 你 。 

对 于 干净 的 小 数据 集 ， 生 成 推荐 结果 就 像 前 面 的 示例 一 样 简单 。 但 现实 中 , 数据 集 往往 非常 
庞大 ， 而 且 其 中 很 多 信息 没有 价值 。 例 如 ， 假 设 一 个 受 欢 迎 的 新 闻 网 站 要 为 读者 推荐 新 闻 文 章 。 
可 以 根据 文章 点 击 率 推断 出 偏好 , 但 也 可 能 会 产生 很 多 假 的 偏好 一 一 或 许 读者 点 击 了 并 不 喜欢 的 
文章 , 或 错误 地 点 击 了 一 个 故事 。 或 许 很 多 点 击发 生 在 未 登录 状态 下 ， 因 而 不 能 与 某 个 用 户 进行 
对 应 。 再 试想 一 下 数据 集 的 大 小 一 一 也 许 每 个 月 的 点 击 量 有 几 十 亿 次 。 

要 在 该 数据 之 上 快速 生成 准确 的 推荐 结果 并 不 简单 。 后 面 的 案例 研究 中 , 我 们 将 使 用 Mahout 
提供 的 工具 来 解决 一 组 这 样 的 问题 。 它 们 会 为 你 呈现 标准 的 方法 会 如 何 导 致 糟糕 的 推荐 结果 , 或 
是 耗费 大 量 的 内 存 和 CPU 时 间 ， 同 时 展示 如 何 配置 和 定制 Mahout 来 提高 性 能 。 


2.3 评估 一 个 推荐 程序 


推荐 引擎 是 一 种 工具 ， 一 种 解答 问题 的 手段 。 "什么 是 对 用 户 最 好 的 推荐 ? ”在 探寻 其 答案 
之 前 , 最 好 先 深究 一 下 这 个 问题 。 好 的 推荐 需要 多 准确 ? 用 户 如 何 获知 推荐 程序 正在 输出 最 佳 结 
果 ? 本 章 后 续 部 分 将 转 而 探讨 如 何 评估 一 个 推荐 程序 ， 因 为 这 会 有 助 于 审视 特定 的 推荐 系统 。 

最 佳 的 推荐 程序 应 该 就 像 是 一 个 “巫师 ”， 它 能 够 在 你 行动 之 前 设法 准确 地 获知 你 喜欢 的 每 
一 种 可 能 的 物品 , 而 且 这 些 物品 是 你 尚未 见 过 或 没有 对 其 表达 过 任何 喜好 意见 的 。 能 够 准确 预测 
你 所 有 喜好 和 行为 的 推荐 程序 还 应 按 你 未 来 的 喜好 把 物品 进行 排队 。 最 优 的 潜在 推荐 结果 应 该 就 
是 这 样 。 
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而 实际 上 , 大 多 数 推荐 引擎 仅 会 试图 给 出 某 些 或 其 他 所 有 物品 的 估计 评分 。 由 此 , 一 种 评估 
推荐 程序 推荐 结果 的 方法 是 评估 其 估计 偏好 值 的 质量 一 一 即 评估 所 估计 的 偏好 在 多 大 程度 上 与 
实际 偏好 相 匹 配 。 


2.3.1 训练 数据 与 评分 


但 是 , 没有 现成 的 实际 偏好 值 可 用 。 没 有 人 能 确切 地 知道 你 将 来 有 多 喜欢 某 些 新 东西 (包括 
你 在 内 ) 在 推荐 引擎 中 ， 这 可 以 通过 提取 一 人 小段 真实 数据 作为 测试 数据 来 仿真 。 这 些 用 于 测试 
的 偏好 不 会 作为 训练 数据 导入 到 被 评 佑 的 推荐 引擎 。 相 反 , 推荐 程序 需要 为 这 些 缺 失 的 测试 数据 
估计 出 偏好 值 ， 然 后 估计 结果 用 于 与 真实 值 进行 对 照 。 

进而 , 我 们 可 以 非常 简单 地 为 推荐 程序 做 一 种 评分 。 例如， 可 以 计算 出 在 估计 和 实际 偏好 之 
间 的 平均 差 值 。 在 这 种 评分 中 , 值 越 低 越 好 , 因为 值 越 低 意味 着 估计 值 与 实际 偏好 值 的 差别 越 小 。 
评分 为 0.0 意 味 着 完美 的 估计 ， 即 在 估计 值 和 实际 偏好 值 之 间 根 本 没有 差别 。 

有 时 会 使 用 差 值 的 均 方 根 : 计算 出 实际 偏好 值 和 估计 值 之 间 的 差 值 之 后 ,先进 行 平方 再 求 其 
均值 的 平方 根 。 见 表 2-1。 值 同样 是 越 低 越 好 。 


表 2-1 平均 差 值 与 均 方 根 的 计算 说 明 


物品 1 物品 2 物品 3 
真实 值 3.0 5.0 4.0 
估计 值 3.5 2.0 5.0 
差 值 0.5 3.0 1.0 
平均 差 值 =(0.5+3.0+1.0)/3=1.5 
均 方 根 = |((0.? +3.0? +1.0°)/3) =1.8484 


表 2-1 显 示 了 一 组 实际 偏好 和 估计 之 间 的 差 值 ， 以 及 如 何 将 它们 转换 为 评分 。 均 方 根 使 得 估 
计 值 的 偏离 显得 更 严重 ， 正 如 这 里 的 物品 2， 这 在 有 时 是 需要 的 。 例 如 ， 相 比 于 偏离 1 颗 星 的 估计 
值 , 偏离 2 颗 星 对 推荐 所 造成 的 不 良 影响 也 许 会 超过 2 倍 。 鉴 于 简单 地 对 差 值 求 平均 可 能 更 直观 和 
易于 理解 ， 后 续 的 例子 中 都 会 采用 这 种 方法 。 


2.3.2 ”运行 RecommenderEvalLuator 


让 我 们 重 温 示例 程序 ， 在 简单 的 数据 集 上 评估 这 个 简易 的 推荐 程序 ， 如 下 列 代码 清单 所 示 。 
代码 清单 2.3 “配置 并 评估 一 个 推荐 程序 ， 


RandomUtils.useTestSeed() ; 
DataModel model = new FileDataModel (new File("intro.csv")); annasman 


RecommenderEvaluator evaluator = 
new AverageAbsoluteDifferenceRecommenderEvaluator (); 
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RecommenderBuilder builder = new RecommenderBuilder() { X 
@Override 构建 如 代码 清单 2-2 所 
public Recommender buildRecommender (DataModel model) 示 的 推荐 程序 


throws TasteException { 


UserSimilarity similarity = new PearsonCorrelationSimilarity (model); 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood (2, similarity, model); 
return 
new GenericUserBasedRecommender (model, neighborhood, similarity); 
} 
}; 


double score = evaluator.evaluate( _| mI TOM EB, 测试 30% 
builder, null, model, 0.7, 1.0); 


System.out.printlin(score) ; 

大 多 数 行为 发 生 在 evaluate () 中 : RecommenderEvaluator 将 数据 分 为 训练 集 和 测试 集 ， 
构建 一 个 新 训练 的 DataModel 与 Recommender 用 于 测试 ， 并 将 估计 的 偏好 值 与 实际 测试 数据 进 
行 比较 。 

注意 传递 给 evaluate () 的 参数 中 没有 Recommender。 这 是 因为 在 该 方法 中 ，Recommender 是 
由 新 训练 的 DataModel 来 构建 的 。 该 方法 的 调用 者 必须 提供 一 个 天 RecommenderBuilder, 
可 以 使 用 DataModel 构 建 出 Recommender。 这 里 , 该 方法 所 用 的 是 和 本 章 之 前 所 述 相 同 的 实现 。 


2.3.3 评估 结果 


代码 清单 2-3 中 的 程序 输出 评价 的 结果 : 一 个 显示 Recommender 表 现 如 何 的 分 数 。 在 这 个 例 
子 中 ,你 只 会 看 到 1 .0 这 一 个 值 。 即 使 evaluator 在 选择 测试 数据 时 引入 许多 随机 量 ,结果 仍 是 
相同 的 ， 因 为 对 RandomUtils .useTestseed() 的 调用 会 强制 每 次 选择 相同 的 随机 值 。 这 仅仅 
是 为 了 获得 可 重复 的 结果 ， 而 被 用 在 这 样 的 示例 或 单元 测试 中 。 请 不 要 在 实际 代码 中 这 样 用 ! 

这 个 分 值 的 意义 取决 于 所 采取 的 实现 方法 ， 这 里 是 AverageAbsoluteDifference- 
RecommenderEvaluator。 在 该 实现 中 分 值 为 1.0， 这 意味 着 平均 而 言 推 荐 程序 所 给 出 的 估计 值 
与 实际 值 的 偏差 为 1.0。 

在 从 1 至 5 的 区 间 中 ，1.0 这 个 值 并 不 大 ， 但 我 们 这 里 只 采用 了 非常 少 的 数据 。 你 来 执行 时 所 
获得 的 结果 也 许 会 不 同 , 因为 对 数据 集 的 分 片 是 随机 的 , 而 且 程 序 每 次 运行 所 用 的 训练 集 和 测试 
集 也 可 能 不 一 样 。 

这 个 技术 可 以 应 用 于 任何 Recommender 和 DataModel。 如 要 使 用 均 方 根来 评分 ， 可 以 用 
RMSRecommenderEvaluatorW{taverageAbsoluteDifferenceRecommenderEvaluator. 

你 可 以 选择 不 向 evaluate () 传递 nul1 (4 ) 参数 , 而 是 传递 DataModelBuilder 的 一 个 实 
例 (instance ), 它 可 以 用 于 控制 如 何 从 训练 数据 中 生成 DataModel。 通常 默认 地 传 空 参数 就 够 了 ， 
除非 你 使 用 了 一 个 特殊 的 DataModel 实 现 一 一 一 个 你 希望 插入 到 评估 过 程 中 的 DataModelBuilder。 

最 后 传递 给 evaluate() 的 参数 1.0 是 用 来 控制 总 共 使 用 多 少 输入 数据 的 。 这 里 ， 它 是 指 
100% 的 数据 。 这 个 参数 可 用 于 仅 通过 庞大 数据 集中 的 很 小 一 部 分 数据 ， 来 生成 一 个 精度 较 低 但 
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更 快 的 评估 。 例 如 ，0.1 代 表 使 用 10% 的 数据 ， 而 90% 的 数据 被 忽略 。 当 你 希望 快速 测试 
Recommender 中 一 些小 的 更 改 时 ， 这 个 参数 会 很 有 用 。 


2.4 评估 查 准 率 与 查 全 率 


我 们 还 应 该 更 全 面 地 看 待 推荐 问题 : 通过 估计 偏好 值 来 生成 推荐 结果 并 非 绝 对 必要 。 给 出 一 
个 从 优 到 劣 排列 的 推荐 列表 对 于 许多 场景 都 够 用 了 ， 而 不 必 包 含 估计 的 偏好 值 。 事 实 上 ， 有 时 精 
确 的 列表 顺序 也 不 那么 重要 一 一 有 几 个 好 的 推荐 结果 就 可 以 了 。 

从 这 种 更 普遍 的 视角 ， 我 们 还 可 以 运用 经 典 的 信息 检索 (information retrieval) 度量 标准 来 
评估 推荐 程序 : 查 准 率 (precision) 和 查 全 率 (recall )。 这 些 术 语 通 常用 在 像 搜 索引 擎 这 样 的 系 
统 中 ， 即 从 许多 可 能 的 搜索 结果 中 返回 一 组 最 佳 结果 。 

搜索 引擎 应 避免 在 top 结 果 中 返回 无 关 信 息 , 而 应 竭力 返回 尽 可 能 相关 的 结果 。 在 一 些 对 “ 相 
关 ” 的 定义 中 ， 查 准 率 是 指 在 top 结 果 中 相关 结果 的 比例 。“Precision at 10”( 推荐 10 个 结果 时 的 
查 准 率 ) 是 指 这 个 比例 来 自 对 前 10 个 top 结 果 的 判定 。 查 全 率 是 指 所 有 相关 结果 包含 在 top 结 果 中 
的 比例 。 图 2-3 给 出 了 它们 的 图 示 。 


查 准 率 


相关 文档 
图 2-3 ”在 搜索 结果 中 查 准 率 和 查 全 率 的 说 明 


这 些 术语 很 容易 用 在 推荐 程序 中 : 查 准 率 是 top 推 荐 中 间 有 “好 ”结果 的 比例 ， 而 查 全 率 是 
“好 ”结果 出 现在 top 推 荐 中 的 比例 。 下 一 节 将 定义 何 为 “好 ”。 


2.4.1 运行 RecommenderIRStatsEvaluator 


Mahout 同 样 提供 了 一 个 相当 简单 的 方法 ， 为 Recommender 计 算出 这 些 值 ， 如 下 面 的 代码 清 
单 所 示 。 


代码 清单 24 ， 查 准 率 和 查 全 率 评估 的 配置 与 运行 
RandomUtils.useTestSeed () ; 


DataModel model = new FileDataModel (new File("intro.csv")); 


RecommenderIRStatsEvaluator evaluator = 
new GenericRecommenderIRStatsEvaluator (); 
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RecommenderBuilder recommenderBuilder = new RecommenderBuilder() { 
@Override 
public Recommender buildRecommender (DataModel model) 
throws TasteException { 
UserSimilarity similarity = new PearsonCorrelationSimilarity (model); 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood (2, similarity, model); 
return 
new GenericUserBasedRecommender (model, neighborhood, similarity); 
} 
3 


IRStatistics stats = evaluator.evaluate ( 


recommenderBuilder, null, model, null, 2, 
GenericRecommenderIRStatsEvaluator.CHOOSE_THRESHOLD, 评估 推荐 2 个 结果 时 的 
1.0); 查 准 率 和 查 全 率 


System.out.println(stats.getPrecision()); 
System.out.println(stats.getRecall()); 


如 果 不 调用 RandomUtils .useTestSeed()， 你 会 看 到 完全 不 同 的 结果 ， 因 为 训练 数据 和 测 
试 数据 是 随机 选择 的 ， 而 且 这 里 选用 的 数据 集 也 非常 小 。 但 是 加 入 这 个 调用 之 后 ， 结 果 就 应 该 为 : 


0.75 
1.0 


“Precision at 2” ( 推荐 2 个 结果 时 的 查 准 率 ) 为 0.75; 平均 有 3/4 的 推荐 结果 是 好 的 。“Recall at 2” 
(推荐 2 个 结果 时 的 查 全 率 ) 为 1.0; 所 有 好 的 推荐 都 包含 在 这 些 推荐 结果 中 。? 

但 是 , 到 底 什么 才 是 好 的 推荐 呢 ? 框架 要 负责 作出 决定 , 而 没有 人 给 它 一 个 定义 。 直 观 上 看 ， 
在 测试 集中 最 受 欢 迎 的 物品 为 好 的 推荐 ， 其 他 则 不 是 。 
代码 清单 2-5 ”在 测试 数据 集中 用 户 5 的 偏好 值 


§, 101, 
102, 
103 
,104, 
,105, 
1 106; 


重新 看 一 下 该 样本 数据 集中 的 用 户 5。 我们 把 物品 101、102 和 103 的 偏好 值 分 离 出 来 作为 测试 
数据 。 它 们 的 偏好 值 分 别 为 4.0、3.0 和 2.0。 当 这 些 值 不 在 训练 数据 集中 时 ， 推 荐 引擎 应 该 先 推荐 
101 ， 再 是 102， 最 后 是 103 ， 因 为 这 是 用 户 5 对 这 些 物品 的 偏好 顺序 。 但 是 推荐 103 会 不 会 是 个 好 
主意 呢 ? 它 位 于 列表 的 末尾 ， 用 户 5 不 会 很 喜欢 它 。 而 用 户 5 对 书 102 的 喜好 也 只 是 一 般 而 已 。 书 
101 看 起 来 不 错 ， 因 为 它 的 偏好 值 远 远 超 过 平均 值 。 或 许 101 是 一 个 好 的 推荐 ，102 和 103 也 不 错 ， 
但 算 不 上 是 好 的 推荐 。 

但 这 是 RecommenderEvaluator 的 思维 方式 。 当 没有 明确 的 阅 值 可 将 推荐 分 出 好 坏 时 ， 框 
架 会 为 每 个 用 户 取 一 个 阐 值 ， 它 等 于 该 用 户 的 平均 偏好 值 x， 加 上 一 个 标准 方差 o: ” 


[5 uur Ut 
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D 查 准 率 和 查 全 率 均 为 对 所 有 用 户 的 推荐 分 别 评估 后 取 的 平均 值 。 一 一 译 者 注 
© 注意 这 里 讨论 的 是 RecommendaerIRStatsEvaluator 中 靖 值 的 设 定 ，RecommenderEvaluator 直 接 将 估计 值 与 
实际 值 相 比 较 ， 故 不 需 使 用 阅 值 。 一 一 译 者 注 


CRY 


No. 2 


2.5 评估 GroupLens 数据 集 19 


BE = u +o 
即使 你 已 经 忘记 了 统计 数据 , 也 没关系 。 Mike RET H A mh E e a T EEE a ), 
而 是 比 平均 值 高 出 很 多 (cc )。 在 现实 场景 下 ， 这 意味 着 大 约 有 16% 的 物品 最 受 欢 迎 ， 它 们 可 以 被 
视 为 好 的 推荐 并 反馈 给 用 户 。 该 方法 所 用 的 其 他 参数 和 以 前 类 似 ， 它 们 在 项 目的 Javadoc 中 有 完 
整 的 文档 说 明 。 


2.4.2 ERMEK HERR 


在 推荐 程序 中 , 查 准 率 和 查 全 率 测试 的 有 效 性 完全 依赖 于 怎样 定义 “好 的 推荐 ”。 在 前 一 节 中 ， 
阅 值 要 么 是 特别 指定 的 ， 要么 是 由 框架 定义 的 。 阅 值 选 择 不 当 会 损害 到 对 推荐 结果 评分 的 有 效 性 。 

但 是 , 这 些 测试 还 有 一 个 更 细节 的 问题 。 这 里 ,它们 必然 是 从 那些 用 户 已 经 表达 过 一 些 偏好 
的 物品 中 挑选 一 组 好 的 推荐 结果 。 但 是 ， 最 好 的 推荐 结果 并 不 一 定 在 那些 用 户 已 知 的 物品 中 ! 

试想 为 一 个 用 户 运行 这 个 测试 , 这 个 用 户 肯 定 喜 欢 小 众 的 法 国 非 主流 电影 W Brother the Armoire. 
平 心 而 论 ， 这 是 给 用 户 的 一 个 非常 棒 的 推荐 ， 但 这 个 用 户 从 来 没有 听 说 过 这 部 电影 。 假 如 推荐 程序 
推荐 这 部 电影 ， 会 被 认为 是 推荐 错误 ; 测试 框架 仅 会 从 用 户 已 有 的 偏好 集合 中 选择 好 的 推荐 。 

如 果 偏 好 是 布尔 型 ， 不 包含 偏好 值 , 那么 事情 就 更 复杂 了 。 这 时 ， 甚 至 没有 相对 偏好 的 概念 
可 用 于 选 出 包含 好 物品 的 数据 子 集 。 该 测试 可 做 的 最 好 选择 就 是 随机 选择 一 些 受 欢迎 的 物品 作为 
好 的 推荐 。 

这 个 测试 仍然 有 些 用 处 。 用 户 偏好 的 物品 可 以 很 好 地 代表 对 用 户 的 最 佳 推荐 , 不 过 它们 绝 非 
完美 的 选择 。 在 布尔 型 偏好 数据 的 案例 中 ， 只 能 做 查 准 - 查 全 测试 (precision-recall test )。 理 解 这 
个 测试 在 该 场景 下 的 局 限 是 必要 的 。 


2.5 评估 GroupLens 数据 集 


有 这 些 工具 在 手 , 我 们 不 仅 可 以 评估 推荐 引擎 的 速度 , 还 可 以 评估 其 质量 。 虽然 几 章 之 后 才 
会 讨论 有 关 大 规模 真实 数据 的 示例 ， 但 现在 我 们 已 经 可 以 快速 评估 一 个 小 数据 集 的 性 能 了 。 


2.5.1 提取 推荐 程序 的 输入 


GroupLens (http:/grouplens.org/ ) 是 一 个 研究 项 目 ， 提 供 多 个 大 小 不 同 的 数据 集 ， 每 个 都 来 
自 真实 用 户 对 电影 的 评分 。 它 是 几 个 可 用 的 大 规模 真实 数据 集中 的 一 个 , 本 书 稍 后 还 会 为 你 介绍 
更 多 的 数据 集 。 

在 GroupLens 网 站 上 ， 找 到 并 下 载 “100K data set”， 当 前 其 地 址 为 http:Wwww.grouplens.org/ 
node/73。 将 下 载 的 文件 解压 ， 在 其 中 找到 名 为 ua.base 的 文件 。 这 是 一 个 以 制 表 符 ( tab ) 分 隔 的 
文件 ,包含 用 户 ID 、 物 品 ID、 评 分 〈 偏 好 值 )， 以 及 一 些 附加 信息 。 

这 个 文件 的 字段 用 制 表 符 分 隔 ， 而 不 是 逗号 ， 结 尾 还 包含 一 个 额外 的 信息 字段 。 它 可 用 吗 ? 
是 的 ， 这 个 文件 可 用 于 FileDataModel。 回 到 代码 清单 2-3 的 代码 ， 创 建 一 个 Recommender- 
Evaluator， 然 后 把 ua.base 的 位 置 传递 给 它 ， 而 不 再 是 传递 一 个 小 数据 文件 。 再 次 运行 。 这 次 ， 
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评估 会 花 上 几 分 钟 ， 因 为 现在 是 基于 100 000 个 偏好 值 ， 而 不 是 少数 几 个 。 

最 终 ， 你 会 得 到 一 个 大 约 为 0.9 的 值 。 这 不 算 坏 ， 但 放 在 1 到 $ 的 区 间 内 ， 这 个 值 偏离 了 将 近 1 
个 点 ， 看 起 来 不 算 太 好 。 对 这 类 数据 ， 也 许 我 们 正在 使 用 的 这 个 特定 的 Recommender 实 现 并 不 
是 最 优 的 ? 


2.5.2 ”体验 其 他 推荐 程序 


让 我 们 试 着 在 这 个 数据 集 上 运行 一 个 slope-one 推 荐 程序 ， 这 是 一 个 还 会 在 第 4 章 中 出 现 的 简 
单 算 法 。 如 下 所 示 用 org.apache.mahout.cf.taste.impl.recommender.slopeone. 
SlopeOne-Rec ommender##f{tRecommenderBuilder BF , 


代码 清单 2-6 ”改变 评估 程序 后 运行 SlopeOneRecommender 


RecommenderBuilder recommenderBuilder = new RecommenderBuilder() { 
@Override 
public Recommender buildRecommender (DataModel model) 
throws TasteException { 
return new SlopeOneRecommender (model) ; 
} 
}; 


再 次 运行 该 评估 。 你 会 发 现 它 快 了 很 多 ， 而 且 生 成 的 评估 结果 大 约 为 0.748。 正 在 向 正确 的 
方向 前 进 。 

这 并 不 是 说 slope-one 总 是 更 好 或 更 快 。 每 个 算法 都 有 其 特征 与 属性 ,无 法 预知 它们 在 给 定数 
据 集 上 的 行为 。 例 如 ， 虽然 slope-one 在 运行 时 会 很 快 算出 推荐 结果 , 但 在 运行 之 前 却 需 要 大 量 的 
时 间 来 预先 算出 其 内 在 的 数据 结构 。 因 此 , 我 们 最 初 介绍 的 基于 用 户 的 推荐 程序 也 许 在 其 他 数据 
集 上 会 更 快 和 更 准确 。 第 4 章 会 探讨 每 种 算法 的 相对 优势 。 

这 种 区 别 彰 显 了 在 真实 数据 上 做 测试 与 评估 的 重要 性 , 以 及 使 用 Mahout 如 何 相对 消除 了 一 些 
麻烦 。 


2.6 h 


本 章 中 ， 我 们 介绍 了 推荐 引擎 的 思想 。 我 们 选用 一 个 简单 的 Mahout Recommender, HZA 
建 了 一 些小 规模 的 输入 数据 、 运 行 了 一 个 简单 计算 ， 并 解释 了 其 结果 。 

接着 我 们 评估 了 推荐 引擎 输出 结果 的 质量 , 这 是 在 后 续 章 节 中 需要 经 常 使 用 的 。 本 章 涵盖 对 
Recommender 所 估计 偏好 的 精度 评估 ， 以 及 传统 的 查 准 率 和 查 全 率 度量 标准 在 推荐 中 的 应 用 。 
最 终 ， 我 们 尝试 评估 一 个 来 自 GroupLens 的 真实 数据 集 ， 并 观察 如 何 借 由 评估 在 现实 场景 中 探索 
对 推荐 引擎 的 改进 。 

在 我 们 继续 详解 推荐 引擎 之 前 , 还 有 一 个 重要 的 事情 要 做 , 即 了 解 Mahout 中 推荐 程序 的 另 一 
个 基本 概念 : 数据 表示 。 我 们 将 在 下 一 章 讨论 它 。 


推荐 数据 的 表示 


本 章 内 容 

口 Mahout 如 何 表示 推荐 数据 
O DataModel1 的 实现 和 用 法 
口 无 偏好 值 时 的 数据 处 理 


推荐 的 质量 很 大 程度 上 取决 于 数据 的 数量 和 质量 。“ 种 瓜 得 瓜 , 种 豆 得 豆 ”, 没有 比 用 在 这 里 
更 恰当 的 了 。 拥 有 高 质量 的 数据 当然 是 件 好 事 ， 而 且 通 常 越 多 越 好 。 

但 是 , 推荐 算法 天 生 是 数据 密集 型 的 ， 其 计算 涉及 对 大 量 信息 的 访问 。 因 此 ,数据 的 数量 和 
表示 方式 会 很 大 程度 上 影响 执行 性 能 。 智能 地 选择 数据 结构 能 够 极 大 地 改善 性 能 , 数据 达到 一 定 
规模 的 时 候 ， 这 并 非 小 事 。 

本 章 探 讨 Mahout 在 表示 和 访问 推荐 程序 的 相关 数据 时 所 用 的 关键 类 。 你 会 更 好 地 理解 为 什么 
Mahout 采 用 这 样 的 方式 来 表示 用 户 和 物品 及 其 相关 的 偏好 , 以 达到 高 效 和 可 扩展 性 。 本 章 还 会 详 
细 解 析 在 Mahout 中 用 于 访问 数据 的 关键 抽象 : DataModel。 

最 后 ， 让 我 们 来 看 看 当 用 户 和 物品 的 数据 没有 评分 或 偏好 值 时 的 情况 ， 即 所 谓 的 布尔 偏好 
( Boolean preference )， 这 时 就 需要 做 特殊 的 处 理 。 

第 一 节 介 绍 推荐 数据 的 基本 单元 : 用户 对 物品 的 偏好 ( user-item preference )。 


3.1 偏好 数据 的 表示 


推荐 引擎 的 输入 是 偏好 数据 (preference data): 什么 人 喜欢 什么 物品 以 及 喜欢 的 程度 。 这 意 
味 着 该 输入 就 是 一 个 用 户 ID、 物 品 ID 和 偏好 值 的 元 组 集合 一 这 自然 是 一 个 大 数据 集 。 有 时 , 偏 
好 值 会 被 忽略 。 


3.1.1 Preference 对 象 


Preference 是 最 基本 的 抽象 ， 表 示 单 个 用 户 ID 、 物 品 ID 和 偏好 值 。 一 个 对 象 代 表 一 个 用 户 
对 一 个 物品 的 偏好 。Preference 是 一 个 接口 ,你 最 有 可 能 使 用 的 实现 是 GenericPreference。 
例如 ， 下 面 一 行 代码 所 生成 的 表示 形式 意味 着 用 户 123 对 于 物品 456 的 偏好 值 为 3.0: 
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new GenericPreference(123, 456, 3.0f) 

那么 一 组 Preference 该 如 何 表示 呢 ? 如 果 你 给 出 像 collection<Preference> 或 者 
Preference[] 这 类 答案 ,虽然 看 似 合理 ,但 对 于 大 多 数 Mahout API 而 言 通常 都 是 错误 的 。 聚 合 
(collection ) 和 数组 ( Array) 在 表示 大 量 Preference 对 象 时 会 变 得 相当 低 效 。 如 果 你 从 未 见识 
过 Java 中 一 个 object 的 开销 ， 你 一 定 会 被 吓 到 ! 

一 个 GenericPreference 包 含 20 字 节 的 有 用 数据 : 一 个 8 字 节 的 用 户 ID (Java Long) 一 个 
8 字 节 的 物品 ID (long) 和 一 个 4 字 节 的 偏好 值 ( float )。 而 该 对 象 的 存在 所 需要 的 开销 令 人 吃 
惊 : 28 字 节 ! 这 个 对 象 的 表示 形式 包含 一 个 8 字 节 的 对 该 对 象 的 引用 ， 以 及 由 于 object 开 销 和 其 
他 对 齐 问 题 所 带 来 的 另外 20 字 节 。 于 是 cenericPreference 对 象 仅 由 于 引用 的 开销 上 就 比 实际 
多 消耗 了 1.4 倍 的 内 存 。 


注意 实际 的 开销 大 小 因 JVM 实 现 而 不 同 ; 上 述 数据 是 针对 蔷 果 Mac OS X 10.6 的 64 位 Java 6 虚拟 
机 而 言 的 。 


该 如 何 表示 大 量 Preference 对 象 呢 ? 在 推荐 算法 中 ,通常 需要 一 个 与 某 个 用 户 或 某 个 物品 
关联 的 所 有 偏好 的 聚合 。 在 这 种 聚合 里 ， 所 有 Preference 对 象 的 用 户 ID 或 物品 ID 都 是 一 样 的 ， 
这 似乎 是 元 余 的 。 


3.1.2 PreferenceArray 及 其 实现 


看 一 下 PreferenceArray， 这 是 一 个 接口 ， 它 的 实现 表示 一 个 偏好 的 聚合 ， 具 有 类 似 数组 
的 API。 例 如 ，GenericUserPreferenceArray 表 示 的 是 与 某 个 用 户 关 联 的 所 有 偏好 。 其 内 部 
包含 一 个 单一 用 户 ID 、 一 个 物品 ID 数组 ， 以 及 一 个 偏好 值 数组 。 在 这 个 表示 形式 中 , 每 个 偏好 的 
边界 内 存 (marginal memory ) 仅 需 要 12 字 节 【 一 个 数组 有 一 个 8 字 节 的 物品 ID 和 一 个 4 字 节 的 偏 
好 值 )。 与 此 对 应 ， 一 个 完整 的 preference 对 象 需要 大 约 48 字 节 。 这 种 特殊 的 实现 仅 在 内 存 上 
就 节省 了 4 倍 空间 ， 而 且 需 要 由 垃圾 回收 器 分 配 和 检查 的 对 象 也 少 多 了 ， 因 此 性 能 也 能 获得 一 定 
的 提升 。 比 较 图 3-1 和 图 3-2 就 能 理解 这 种 节省 是 如 何 达成 的 。 


图 3-1 一 种 基于 Preference 对 象 数组 的 相对 低 效 的 偏好 表示 形式 。 灰 色 区 域 大体 表 
示 object 的 开销 。 白 色 区 域 为 数据 ， 包 括 object 的 引用 
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图 3-2 ”基于 GenericUserPreferenceArray 的 更 高 效 的 表现 形式 
下 列 代码 显示 了 PreferenceArray 典 型 的 构建 和 访问 方式 。 
代码 清单 3-1 设置 PreferenceArray 中 的 偏好 值 


PreferenceArray userlPrefs = new GenericUserPreferenceArray (2) ; 
user1Prefs.setUserID(0, 1L); 


本 设置 这 些 偏好 的 用 户 ID 


User1LPrefts.setItermID(0，101LD) ; 
user1Prefs.setValue(0, 2.0f); 


userlPrefs.setItemID(1, 102L); = 
这 些 
userlPrefs.setValue(1, 3.0£); | 表示 这 些 偏好 | 提取 物品 102 的 


Preference 
Preference pref = userlPrefs.get(1)j; 


同样 ， 存 在 一 个 称 为 GenericItemPreferencearravy 的 实现 ， 它 封装 了 所 有 与 某 一 物品 相 
关联 的 偏好 ， 而 不 是 关联 到 某 个 用 户 。 它 的 用 途 与 用 法 完全 类 似 。 


3.1.3 ”改善 聚合 的 性 能 


你 可 能 会 想 :“ 太 棒 了 ! Mahout 已 经 创造 了 一 个 Java 对 象 的 数组 。” 哦 ， 先 别 急 ， 因 为 还 有 惊 
喜 。 你 还 记得 我 们 曾 提 到 过 规模 的 重要 性 吗 ? 希望 你 已 经 明白 使 用 这 种 技术 将 要 面 对 的 数据 大 得 
非 同 寻常 ， 而 这 可 能 会 带 来 出 乎 意料 的 后 果 。 

PreferenceArray 及 其 实现 降低 了 对 内 存 的 需求 ， 即 便 引 入 复杂 性 也 是 值得 的 。 将 内 存 需 
求 砍 掉 3/4 并 不 只 是 节省 了 几 兆 字 节 一 一 在 一 定 规模 下 这 会 节省 出 几 十 GB 的 内 存 容量 。 这 也 许 就 
是 你 的 现 有 硬件 能 和 否 容纳 下 这 些 数据 的 区 别 。 也 许 这 意味 着 你 是 否 需 要 花费 许多 钱 来 购买 更 多 
RAM， 或 者 一 个 新 的 64 位 系统 。 这 是 一 个 看 似 很 小 ， 却 很 实在 的 节省 。 


3.1.4 FastByIDMapýlFastIDSet 


你 一 定 不 会 吃惊 , Mahout 的 推荐 程序 中 大 量 使 用 了 Map 和 Set 这 些 典 型 的 数据 结构 , 但 它们 
用 的 并 不 是 通常 的 Java 集 合 (collection ) 的 实现 ， 如 Treeset 和 HashMap。 相 反 ， 通 览 全 部 的 
实现 与 API， 你 会 找到 FastMap、FastByIDMap 和 FastIDSet。 它 们 类 似 于 Map 和 set， 但 做 
了 特殊 定制 ， 仅 为 满足 Mahout 中 推荐 程序 的 需要 。 它 们 降低 了 对 内 存 的 占用 ， 而 不 是 去 显著 地 
改善 性 能 。 

不 能 把 它们 当做 是 对 Java Collections 框 架 的 批评 。 相 反 ， 集 合 因为 良好 的 设计 ， 可 以 有 效 地 
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适用 于 很 多 场景 。 只 是 ,它们 无 法 对 使 用 方式 作出 任何 假设 。Mahout 的 需求 则 更 具 针 对 性 ， 从 而 
可 以 对 用 途 作出 更 强 的 设 定 。 主 要 区 别 如 下 。 
O 与 HashMap 类 似 ，FastByIDMap 是 基于 散 列 的 。 但 它 在 处 理 散 列 冲突 时 使 用 的 是 线性 探 
Wij (linear probing )， 而 非 分 离 链接 〈 separate chaining )。 这 样 便 不 必 为 每 个 条 目 〈entry ) 
都 增加 一 个 额外 的 Map .Entry 对 象 ; 如 前 所 述 ，object 对 内 存 的 消耗 是 惊人 的 。 
口 在 Mahout 推 荐 程序 中 键 ( key ) 和 成 员 (member) 通常 采用 原始 类 型 1ong， 而 非 object。 
使 用 1ong 型 的 键 可 以 节约 内 存 并 提升 性 能 。 
O set 实现 的 内 部 没有 使 用 Map。 
口 FastByIDMap 可 以 作为 高 速 缓存 ， 因 为 它 有 一 个 最 大 空间 的 概念 ; 超过 这 个 大 小 时 ,， 若 
要 新 加 入 条 目 则 会 把 不 常用 的 移 走 。 
存储 上 的 差异 是 非常 明显 的 : FastIDSset 平 均 每 个 成 员 需 要 大 约 14 字 节 , 而 HashSet 需 要 84 
字 节 。FastByIDMap 每 个 条 目 需 要 大 约 28 字 节 ， 而 HashMap 每 个 条 目 需 要 大 约 84 字 节 。 这 说 明 
当 能 够 在 用 途上 作出 更 强 假 设 时 , 就 有 可 能 进行 大 幅 的 优化 一 一 这 里 主要 是 在 内 存 需求 上 。 考虑 
到 推荐 系统 所 处 理 的 数据 量 ， 这 些 定制 化 的 实现 并 非 自 卖 自 夸 。 
那么 ， 这 些 精心 设计 的 类 被 用 在 哪里 了 呢 ? 


3.2 内存 级 DataModel 


在 Mahout 中 使 用 DataModel 这 种 抽象 机 制 对 推荐 程序 的 输入 数据 进行 封装 ， 而 DataModel 
的 实现 为 各 类 推荐 算法 提供 了 对 数据 的 高 效 访问 。 例如 , DataModel 可 以 提供 输入 数据 中 所 有 用 
户 ID 的 计数 或 列表 、 提 供与 某 个 物品 相关 的 所 有 偏好 , 或 给 出 所 有 对 一 组 物品 ID 表达 过 偏好 的 用 
户 的 个 数 。 

本 节 仅 关注 一 些 要 点 ; 更 多 关于 DataModael 的 内 容 参见 在 线 的 Javadoc 文 档 (https:Wbuilds. 
apache.org/job/Mahout-Quality/javadoc/ )。 


3.2.1 GenericDataModel 


内 存 级 ( in-memory ) 实现 GenericDataModel 是 现 有 DataModel 实 现 中 最 简单 的 。 它 适用 
于 通过 程序 在 内 存 中 构造 数据 的 表示 形式 , 而 不 是 基于 来 自 外 部 的 数据 源 ,如 文件 或 关系 数据 库 。 
它 简单 地 将 偏好 作为 输入 ， 采 用 FastByIDMap 的 形式 ， 将 用 户 ID 映射 到 这 些 用 户 的 数据 所 在 的 


PreferenceArray 上 ， 如 下 所 示 。 


FastByIDMap<PreferenceArray> preferences = 
new FastByIDMap<PreferenceArray>(); 
PreferenceArray prefsForUserl = new GenericUserPreferenceArray (10) ; 


prefsForUserl.setUserID(0, 1L); 
prefsForUserl.setItemID(0, 101L); 
prefsForUserl.setValue(0, 3.0f); 


| 增加 10 个 偏好 中 的 第 1 个 
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prefsForUserl.setItemID(1, 102L); 
prefsForUserl.setValue(1, 4.5f); 
. (8 more) 


ai 在 输入 中 附 上 用 户 1 的 偏好 
preferences.put(1L, prefsForUser1) ; 

DataModel model = new GenericDataModel (preferences) ; 

GenericDataModel 使 用 了 多 少 内 存 呢 ? 被 存储 的 偏好 的 个 数 决 定 了 对 内 存 的 需求 。 根 据 一 
些 经 验 性 的 测试 得 知 ， 每 个 偏好 大 约 消耗 28 字 节 的 Java 堆 空间 。 这 包括 所 有 数据 以 及 其 他 支持 性 
的 数据 结构 ,如 索引 。 如 果 你 乐意 ,可 以 尝试 :加 载 cenericDataModael ,调用 几 次 Svstem.gc() ， 
再 比较 Runtime .totalMemory() 和 Runtime . freeMemory() 的 结果 。 这 种 比较 非常 粗略 ， 但 
会 对 数据 所 消耗 的 内 存 有 一 个 合理 的 估计 。 


3.22 ”基于 文件 的 数据 


你 通常 不 会 直接 使 用 GenericDataModel， 而 是 借助 于 FileDataModel， 后 者 从 文件 中 读 
取 数 据 ， 并 将 所 得 到 的 偏好 数据 存储 到 内 存 中 ， 即 存储 到 GenericDataModel 中 。 

几乎 任何 正常 的 文件 都 可 以 用 ， 比 如 第 2 章 中 采用 的 CSV( Comma-Separated Value, i254} 
隔 值 ) 格式 的 那 种 文件 。 每 行 包 含 一 个 数据 : 用 户 ID、 物 品 ID 和 偏好 值 。 采 用 制 表 符 分 隔 也 是 可 
以 的 。 用 zip 或 gzip 压 缩 的 文件 同样 可 以 ， 只 要 名 字 分 别 以 .zip 或 .gz 结尾 。 将 数据 以 压缩 格式 存储 
是 一 个 很 好 的 主意 ， 因 为 它 会 非常 大 且 很 容易 压缩 。 


3.2.3 ”可 刷新 组 件 


虽然 我 们 谈论 的 是 加 载 数据 , 但 仍 有 必要 讲 一 讲 重 加 载 数据 reloading data ), 以 及 Refreshable 
接口 , 即 在 Mahout 推 荐 程序 相关 类 中 所 实现 的 几 个 组 件 。 它 只 公开 了 一 个 方法 refresh (Collection 
<Refreshable>) 。 该 方法 简单 地 请 求 组 件 在 最 新 的 输入 数据 上 进行 : 重 加 载 (reload), EA 
( recompute ) 并 刷新 (refresh) 自身 状态 ， 并 事先 让 它 的 依赖 (dependency ) 也 这 样 做 。 

例如 ，Recommender 在 重新 计算 其 内 部 数据 索引 时 ， 多 会 在 它 所 依赖 的 DataModel 上 调用 
refresh()。 循环 依赖 (cyclical dependency ) 和 共享 依赖 (shared dependency ) 被 管理 得 很 好 ， 
如 图 3-3 所 示 ( 基于 图 2-2 )。 


t 
k 
i 
wo ae my 3 


图 3-3 ”一 个 简单 的 基于 用 户 的 推荐 系统 ， 箭 头 所 示 为 组 件 之 间 刷 新 数据 结构 的 顺序 
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注意 ，FilepataModel 仅 会 在 被 请 求 的 时 候 才 从 底层 文件 重新 加 载 数 据 。 出 于 性 能 考虑 ， 
它 不 会 自动 检测 更 新 或 定期 重新 加 载 文件 的 内 容 。 这 是 *efresh () 方 法 该 做 的 事 。 你 大 概 不 会 只 
想 刷新 FileDataModel， 而 是 希望 所 有 依赖 该 数据 的 对 象 都 被 刷新 。 实 际 上 ， 这 就 是 为 什么 你 
总 要 在 如 下 Recommender 中 明确 调用 refresn() 的 原因 。 


代码 清单 3-3 ”触发 一 个 推荐 系统 的 刷新 

DataModel dataModel = new FileDataModel (new File("input.csv"); 

Recommender recommender = new SlopeOneRecommender (dataModel) ; 

recommender. SBEReSRT AUN ¢ < 刷新 pataMode1l， 然 后 刷新 自己 

因为 规模 是 贯穿 本 书 的 主题 ， 我 们 应 该 强调 FileDataModel 另 一 个 有 用 的 特性 更 新 文件 。 
数据 总 在 改变 , 通常 改变 的 数据 只 是 所 有 数据 中 很 小 的 一 部 分 , 甚至 可 能 仅仅 是 十 亿 个 数据 中 的 几 
个 点 。 只 为 了 几 个 数据 的 更 新 对 一 个 包含 十 亿 个 偏好 的 数据 做 一 个 全 新 的 复制 ， 这 是 非常 低 效 的 。 


3.2.4 更 新 文件 


FileDataModel 支 持 更 新 文件 。 它 们 就 是 在 读 取 主 数据 文件 之 后 额外 生成 的 数据 文件 ， 并 
可 以 覆盖 任何 以 前 读 取 的 数据 。 通 过 添加 来 形成 新 的 偏好 , 还 可 以 更 新 现 有 偏好 。 通过 设 一 个 偏 
好 值 为 空 的 字符 串 来 实现 删除 。 

例如 ， 考 虑 如 下 的 更 新 文件 : 


1,108,3.0 
1,103, 


就 是 说 ,“ 更 新 (或 生成 ) 用 户 1 对 物品 108 的 偏好 ， 并 将 值 设 为 3.0"”， 以 及 “删除 用 户 1 对 物 
品 103 的 偏好 ”。 

这 些 更 新 文件 必须 和 主 数据 文件 在 同一 个 目录 下 , 且 文 件 名 的 前 级 ( 第 一 个 域 ) 相 同 。 例如 ， 
如 果 主 数据 文件 为 foo.txt.gz， 更 新 文件 可 为 foo.1.txt.gz 和 foo.2.txt.gz。 它 们 可 以 是 压缩 文件 。 


3.25 ”基于 数据 库 的 数据 


有 时 数据 就 是 太 大 了 ， 无 法 放 和 内存 。 一 旦 数据 集 有 几 千 万 个 偏好 ， 内 存 需 求 会 增长 到 几 
GB， 在 某 些 场景 下 可 能 无 法 支持 这 么 大 的 内 存 容量 。 

偏好 数据 是 有 可 能 存储 到 一 个 关系 数据 库 中 并 进行 访问 的 , 而 Mahout 支 持 这 样 做 。 在 Mahout 
推荐 程序 中 ， 一 些 类 的 实现 出 于 性 能 考虑 会 把 计算 下 放 到 数据 库 中 。 

要 知道 ， 当 推荐 引擎 所 用 的 数据 来 自 数据 库 时 , 它 的 运行 要 比 使 用 内 存 级 的 数据 表示 慢 很 多 
倍 。 这 并 不 是 数据 库 的 错 ; 通过 合理 地 调 优 和 配置 ,一 个 现代 数据 库 可 以 用 于 极其 高 效 地 对 信息 
进行 索引 和 检索 , 但 检索 、 整 理 ( marshalling )、 序 列 化 ( serializing )、 传 输 和 反 序列 化 ( deserializing ) 
结果 集 的 开销 仍 远 大 于 从 优化 的 内 存 级 数据 结构 中 读 取 数据 的 开销 。 由 于 推荐 算法 是 数据 密集 型 
的 ,这 种 开销 会 快速 积累 。 不 过 ， 当 没有 其 他 选择 时 ,数据 库 仍 是 理想 选择 ,或 者 虽然 所 用 数据 
集 不 太 大 ， 但 为 了 集成 还 需要 重用 一 个 现 有 的 数据 表 ， 此 时 也 应 选择 数据 库 。 
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3.2.6 JDBC#IMySQL 


偏好 数据 是 通过 JDBC 访 问 的 ， 使 用 了 JDBCDataModel 的 实现 。 现 在 ，JDBCDataModel 的 
主要 子 类 是 为 使 用 MySQL 5x 而 写 的 : MySQLJDBCDataModel。 它 在 MySQL 的 早期 版 本 上 也 很 
好 用 ， 甚 至 可 用 于 其 他 数据 库 ， 因 为 尽 可 能 地 使 用 了 标准 的 ANSI SQL。 变 种 的 实现 也 不 难 ， 可 
以 结合 需求 使 用 数据 库 所 专 有 的 语法 和 特性 。 


注意 在 Mahout 的 开发 版 本 中 有 一 个 专 为 PostgreSQL 而 做 的 JDBCDataModel 的 实现 。 还 有 一 个 
GenericJDBCDataModel 类 ， 它 允许 你 使 用 那些 没有 做 专 有 实现 的 数据 库 中 的 数据 。 


默认 情况 下 ， 这 个 实现 假设 所 有 的 偏好 数据 位 于 一 个 名 为 Laste_preferences 的 表 中 ,其 
中 用 户 ID 的 列 为 user_ida, 物品 ID 的 列 为 item_ia, 偏好 值 的 列 为 preference。 其 模式 如 表 3-1? 
所 示 。 该 表 还 可 以 包含 一 个 名 为 timestamp 的 字段 ， 它 的 类 型 应 该 兼容 于 Java 的 1ong 型 。 


表 3-1 MySQL 中 taste_preferences 表 默认 的 模式 


user id 
BIGINT NOT NULL 
INDEX 


item id 
BIGINT NOT NULL 
INDEX 
PRIMARY KEY 


preference 
FLOAT NOT NULL 


3.2.7 ”通过 JNDI 进 行 配置 


JDBCDataModel 实 现 还 假设 包含 这 个 表 的 数据 库 可 以 通过 一 个 Datasource 对 象 来 访问 , 这 
个 对 象 已 经 注册 到 名 为 jdbc/taste 的 JNDI 中 。 

你 也 许 会 问 : 什么 是 JNDI2? 它 的 全 称 为 Java Naming and Directory Interface， 即 Java 命 名 与 
目录 接口 ， 它 是 J2EE (Java 2 Enterprise Edition ) 规范 的 核心 。 如 果 你 正在 一 个 Web 应 用 中 使 用 推 
荐 引擎 , 并 正在 使 用 Tomcat 或 Resin 这 样 的 servlet 容 器 , 那么 你 很 可 能 已 经 间接 用 到 了 JNDI。 如 果 
正 通过 容 吉 〈 例 如 Tomcat 的 serverxml 文 件 ) 配置 数据 库 ， 你 会 发 现 这 个 配置 通常 会 被 JINDI 中 的 
DataSource 所 引用 。 

你 可 以 将 数据 库 配置 为 jdbc/taste， 其 中 包含 JDBCDataModel 会 使 用 的 细节 。 这 里 有 Tomcat 
可 用 配置 的 一 个 片段 。 


D 在 MySQL 中 创建 该 表 的 命令 可 以 写 为 : CREATE TABLE taste_preferences (user_id BIGINT NOT NULL, 
item_id BIGINT NOT NULL, preference FLOAT NOT NULL, PRIMARY KEY (user_id, item_id), INDEX 
(user_id), INDEX (item_id) ) 。 一 一 译 者 注 

@ JNDI 避 免 了 数据 库 和 程序 之 间 的 紧 耦 合 。 当 数据 库 相 关 参 数 发 生变 更 时 , 仅 需 在 JNDI 中 修改 相关 配置 ， 而 无 须 修 
改 程序 。 一 一 译 者 注 
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代码 清单 3-4 ”在 Tomcat 中 配置 一 个 JNDI DataSource 
<Resource 
name="jdbc/taste" 
auth="Container" 
type="javax.sql.DataSource" 
username="user" 
password="password" 
driverClassName="com.mysql.jdbc.Driver" 
url="jdbce:mysql://localhost:3306/mydatabase"/> 


默认 的 名 字 (jdbc/taste ) 可 以 根据 环境 需要 更 换 。 你 还 可 以 像 上 面 这 样 不 去 明确 地 为 数据 库 
和 列 命 名 。 


3.2.8 利用 程序 进行 配置 


你 也 不 必 直 接 使 用 JNDI, 而 是 将 Datasource 直 接 传递 到 MysQLJDBCDataModel 的 构造 函数 
中 。 下 面 的 代码 清单 显示 了 配置 MysQLJDBCDataModel 的 一 个 完整 示例 ， 其 中 说 明了 如 何 使 用 
MySQL Connector/J 驱 动 ( http://www.mysql.com/products/connector/ )， 以 及 指定 了 表 和 列 名 的 


DataSourceo 


代码 清单 3-5 | I eso oe 


MysqlDataSource dataSource = new My cl Daa Gee 0; 
dataSource.setServerName ("my_database_host"); 
dataSource.setUser("my_user"); 
dataSource.setPassword("my_password") ; 
dataSource.setDatabaseName ("my_database_name") ; 
JDBCDataModel dataModel = new MySQLUDBCDataModel ( 
dataSource, "my_prefs_table", "my_user_column", 
"my_item_column", "“my_pref_value_column") ; 


这 就 是 将 数据 库 中 的 数据 用 于 推荐 所 需 做 的 所 有 事情 。 
你 现在 已 经 得 到 了 一 个 与 所 有 推荐 程序 组 件 兼容 的 pataModel1! 但 是 正如 MySsQLIDBCData- 
Model 的 文档 所 说 的 ， 高 效 地 推荐 需要 正确 配置 数据 库 与 驱动 。 具 体 如 下 所 述 。 
口 用 户 ID 和 物品 ID 列 应 为 非 空 ， 而 且 必须 被 索引 。 
O 主键 必须 为 用 户 ID 和 物品 卫 的 组 合 
口 列 的 数据 类 型 根据 Java 中 对 应 的 1ong 和 float 型 来 选择 。 在 MySQL 中 ,它们 应 为 BTGINT 
AFLOAT. 
O 注意 调节 缓冲 区 和 查询 高 速 缓存 ( query cache), JlmMySQLIDBCDataModel Javadoc. 
O 当 使 用 MySQL 的 ConnectorJ 驱 动 时 ， 将 驱动 的 参数 (如 cachePreparedStatements ) 
设 为 Lrue， 细 节 同 样 见 Javadoc。 
上 述 讨论 已 经 涵盖 了 使 用 Mahout 推 荐 引擎 框架 中 DataModel 的 基础 。 在 这 些 实现 中 还 有 一 
个 重要 的 变 体 需要 讨论 : 如 何 表示 偏好 值 缺 失 的 数据 。 这 听 起 来 有 些 奇怪 ， 因 为 偏好 值 似乎 是 推 
荐 引擎 所 必须 的 输入 数据 。 但 有 时 ， 偏 好 值 不 存在 或 者 忽略 偏好 值 是 有 好 处 的 。 
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3.3 无 偏好 值 的 处 理 


有 时 ,输入 推荐 引擎 的 偏好 没有 值 。 也 就 是 说 ,用户 和 物品 是 关联 的 , 但 是 没有 这 种 关联 的 
强度 描述 。 例 如, 一 个 新 闻 网 站 要 根据 用 户 以 前 浏览 的 新 闻 文章 做 推荐 , 但 只 知道 一 些 用 户 和 物 
品 之 间 的 关联 ， 而 没有 更 多 的 信息 ,因为 用 户 通 常 不 会 去 评价 文章 。 用 户 在 浏览 文章 之 外 甚至 都 
很 少 会 去 做 其 他 的 事情 。 这 时 ， 我 们 仅 能 得 知 与 用 户 关联 的 是 哪 篇 文章 ， 以 及 少量 的 其 他 信息 。 

在 这 里 , 我 们 别 无 选择 ; 在 输入 中 没有 偏好 值 可 以 作为 初始 值 。 本 章 后 续 的 技术 和 建议 仍 适 
用 该 场景 。 即 便 在 输入 中 的 确 存在 偏好 值 ， 有 时 忽略 它们 也 会 有 好 处 。 至 少 在 有 的 时 候 ， 这样 做 
没有 坏处 。 

这 并 非 要 忘记 用 户 和 物品 之 间 的 关联 ， 而 是 忽略 其 中 的 偏好 强度 。 例 如 ， 当 推荐 一 部 新 电影 
时 ,不 是 考虑 你 看 过 哪些 电影 以 及 你 是 如 何 评价 它 的 ， 而 只 是 简单 地 考虑 你 看 过 的 是 哪些 电影 。 
不 是 获取 “用 户 1 对 电影 103 表 达 的 偏好 为 4.5”, 而 是 忘记 4.5 这 个 值 , 将 “用 户 1 和 电影 103 有 关联 ” 
这 样 的 数据 作为 输入 ， 这 会 很 有 用 。 图 3-4 说 明了 这 种 区 别 。 


图 3-4 ”用 户 和 物品 之 间 具 有 偏好 值 的 关系 ( 左 图 ) 和 不 具有 偏好 值 的 关系 ( 右 图 ) 


由 于 缺少 更 好 的 术语 来 表达 ， 在 Mahout 的 语言 里 ， 这 种 没有 偏好 值 的 关联 称 为 布尔 型 偏好 
( Boolean preference )， 因 为 一 个 关联 只 可 能 有 两 个 值 : 存在 或 不 存在 。 这 并 不 意味 着 数据 中 的 物 
品 偏好 是 yes 或 no， 而 是 会 让 用 户 -物品 关联 具有 全 部 的 三 种 可 能 状态 : 喜欢 、 不 喜欢 或 无 所 谓 。 


3.3.1 何 时 忽略 值 


为 什么 要 忽略 偏好 值 ? 因为 这 么 做 在 一 定 场景 下 是 有 好 处 的 , 此 时 喜欢 或 不 喜欢 一 个 物品 相 
对 而 言 都 差不多 ， 至 少 和 根本 没有 关联 相 比 是 这 样 的 。 

让 我 们 举例 说 明 。 想 象 有 这 么 一 个 人 ， 他 不 喜欢 古典 作曲 家 Rachmaninoff 的 作品 。 事 实 上 ， 
他 在 自己 的 iTunes 库 中 对 Rachmaninoff 的 几 个 作品 给 出 了 1 星 或 2 星 的 评价 。 除 了 这 些 作品 ， 世 界 
上 还 有 无 数 的 音乐 ， 其 中 一 些 是 他 从 来 没有 听 过 的 ( 就 像 挪威 死亡 金属 乐 ， 即 Norwegian death 
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metal ) 他 甚至 是 因为 足够 了 解 Rachmaninoff 而 不 喜欢 他 的 作品 , 甚至 在 iTunes 库 的 开头 还 留 有 几 
个 Rachmaninoff 的 作品 ， 这 些 都 显示 了 他 和 这 个 作曲 家 的 关联 ， 甚 至 透漏 出 他 对 类 似 作 品 的 一 种 
偏好 。 与 大 千 世 界 中 他 完全 不 知道 的 作品 相 比 ， 这 种 关联 是 非常 明显 的 。 虽 然 他 也 许 会 给 
Rachmanino 企 一 个 1 星 评价 ， 而 给 Brahms 一 个 5 星 ， 实 际 上 这 都 传递 了 一 些 类 似 的 信息 : 一 种 对 古 
音乐 的 兴趣 。 因 此 ， 忘 记 实 际 的 评分 反 ， 认 真 思考 这 一 事实 ， 其 至 可 以 给 出 更 好 的 推荐 。 

你 可 能 会 反驳 说 这 是 用 户 的 错误 。 难 道 他 不 会 给 Rachmaninoff 一 个 4 星 ?” 因 为 还 有 挪威 死亡 
金属 乐 ， 而 这 可 能 才 是 他 会 给 出 1 星 评价 的 作品 。 也 许 如 此 ， 但 这 就 是 生活 。 输 入 常常 是 有 问题 
的 。 你 可 能 还 会 反驳 说 , 虽然 这 对 于 从 所 有 类 型 的 音乐 中 做 推荐 是 合理 的 , 但 忽略 这 些 数据 的 话 ， 
在 只 推荐 古典 作曲 家 时 可 能 使 推荐 效果 变 差 。 的 确 如 此 ; 但 在 一 个 领域 中 的 好 方案 并 不 总 是 能 移 
植 到 其 他 领域 的 。 


3.3.2 无 偏好 值 时 的 内 存 级 表示 


没有 了 偏好 值 会 极 大 地 简化 偏好 数据 的 表示 ， 这 会 获得 更 优 的 性 能 并 显著 降低 对 内 存 的 占 
用 。 如 前 所 述 ，Mahout 的 Preference 对 象 将 偏好 值 存 为 4 字 节 的 Java float 型 。 没 有 了 偏好 值 ， 
在 内 存 中 每 个 偏好 能 够 节省 4 字 节 。 实 际 上 ， 重 复 前 面 的 粗略 测试 可 以 看 到 ， 每 个 偏好 的 内 存 消 
耗 平均 减少 了 4 字 节 ， 降 为 24 字 节 。 

这 来 自 于 对 GenericDataMode1 挛 生 兄 弟 GenericBooleanPrefDataModel 的 测试 。 这 是 
另 一 个 内 存 级 的 DataModel 实 现 , 但 其 内 部 并 不 存储 偏好 值 。 它 简单 地 将 关联 存 为 FastIDSet; 
例如 ， 每 个 用 户 用 1 个 ,来 代表 与 用 户 关联 的 所 有 物品 IDP。 其 中 不 包含 偏好 值 。 

因 为 GenericBooleanPrefDataModel 也 是 一 个 DataModel ， 它 有 时 可 以 代 替 
GenericDataModel 。 DataModel 的 一 些 方法 使 用 这 个 新 的 实现 会 更 快 ， 如 getItemIDs 
ForUser () ， 因 为 新 的 实现 已 经 有 现成 的 结果 。 有 些 则 会 变 慢 ， 如 getPreferencesFromUser () ， 
因为 新 的 实现 不 使 用 Preferencearray， 必 须 实例 化 一 个 才能 实现 这 个 方法 。 

你 也 许 想 知道 getPreferenceValue () 会 返回 什么 ， 因 为 这 里 并 没有 偏好 值 。 它 并 不 抛 出 
UnsupportedOperationException, 而 会 一 概 返回 相同 的 假 值 : 1.0。 必 须 注意 这 一 点 ， 因 
为 依赖 于 偏好 值 的 组 件 仍 会 从 该 pataModel 中 获取 一 个 值 。 这 尘 偏 好 值 是 假 值 上 且 不 会 改变 , 这 会 
带 来 一 些小 问题 。 

证 我 们 回 到 上 一 章 的 GroupLens 示 例 。 但 代码 改 为 使 用 GenericBooleanPrefDataModel， 
如 代码 清单 3-6 所 示 。 


代码 清单 3-6 ”布尔 型 数据 的 生成 与 评估 

DataModel model = new GenericBooleanPrefDataModel ( 
GenericBooleanPrefDataModel .toDataMap ( 

new FileDataModel (new File("ua.base"))))j; 


tt FiGenericBooleanPrefDataModel 
RecommenderEvaluator evaluator = 


new AverageAbsoluteDifferenceRecommenderEvaluator (); 


RecommenderBuilder recommenderBuilder = new RecommenderBuilder() { 
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public Recommender buildRecommender (DataModel model) 
throws TasteException { 
UserSimilarity similarity = 
new PearsonCorrelationSimilarity (model) ; 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(10, similarity, model); 
return 
new GenericUserBasedRecommender (model, neighborhood, similarity); 
} 
F3 


DataModelBuilder modelBuilder = new DataModelBuilder() { 
public DataModel buildDataModel ( 
FastByIDMap<PreferenceArray> trainingData) { 
return new GenericBooleanPrefDataModel ( 
GenericBooleanPrefDataModel .toDataMap ( 
trainingData) ); 


i 构造 一 个 


ý: GenericBooleanPrefDataModel 


double score = evaluator.evaluate( 
recommenderBuilder, modelBuilder, model, 0.9, 1.0); 
System.out.println(score) ; 


该 示例 的 关键 在 于 DataModelBuilder。 你 可 以 用 它 控制 评估 过 程 构造 用 于 训练 数据 的 
DataModel 。 GenericBooleanPrefDataModel 获取 输入 的 方式 略为 不 同一 一 通过 一 
FastIDSet 而 非 PreferenceArray 一 一 有 一 个 toDataMap () 方 法 可 以 方便 地 转换 它们 。 

阅读 下 一 节 之 前 ， 试 着 运行 这 段 代码 一 一 它 不 会 成 功 地 结束 。 


3.3.3 ”选择 兼容 的 实现 


你 会 发 现 运行 代码 清单 3-6 中 的 代码 会 导致 一 个 来 自 PearsonCorrelationSimilarity 构 
造 函 数 的 异常 Tl1legalArgumentException。 初 看 这 会 让 人 感到 奇怪 : GenericBooleanPref- 
DataModel 不 也 是 一 个 DataModel 吗 ?而 且 它 除了 不 存储 明确 的 偏好 值 之 外 ， 几 乎 与 
GenericDataModel 相 同 。 

如 果 缺 少 偏好 值 ， 像 EuclideanDistancesimilarity 这 样 的 相似 性 度量 会 拒绝 工作 ， 因 
为 其 结果 会 是 未 定义 的 ( undefined ) 或 无 意义 的 ， 从 而 导致 无 用 的 结果 。 如 果 两 个 数据 集 是 相同 
数值 的 简单 重复 , 它们 之 间 的 皮尔 逊 相关 系数 是 未 定义 的 。 这 里 ，DataModel 假 设 所 有 偏好 值 均 
为 1.0。 类 似 地 ， 计 算 对 应 于 空间 上 同一 个 点 的 所 有 用 户 之 间 的 欧 氏 距离 ( Euclidean distance, 
又 称 欧 几 里 得 距离 )， 即 这 里 的 (1.0, 1.0, …, 1.0) 是 无 意义 的 ， 因 为 所 有 的 相似 性 均 为 1.0。 


注意 皮尔 逊 相关 系数 是 两 个 数据 集 的 协 方差 与 其 标准 差 之 间 的 比值 。 两 个 
值 均 为 0， 而 目前 Java 在 计算 0/0 的 相关 结果 时 一 定 会 返回 “not a number”。 


Q 在 PearsonCorrelationsimilarity 中 通过 return Double.NaN; 来 实现 。 一 一 译 者 注 
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这 个 例子 具有 普遍 意义 , 它 说 明了 即使 组 件 会 采取 一 系列 的 标准 接口 来 获得 交互 性 , 也 无 法 
保证 每 个 实现 都 彼此 相 容 。 为 了 解决 这 个 现实 问题 ， 需 要 一 个 合适 的 相似 性 度量 。 
LogLikelihoodSimilarity 就 是 这 样 的 一 个 实现 ， 因 为 它 并 非 基 于 实际 的 偏好 值 。( 我 们 稍 后 
会 讨论 相似 性 度量 。) 用 它 来 替代 PearsonCcorrelationsimilarity， 结 果 为 0.0。 这 很 棒 ， 因 
为 这 意味 着 完美 的 预测 结果 。 是 不 是 好 得 过 火 了 呢 ? 

很 遗憾 ， 的 确 如 此 。 这 个 结果 是 当 每 个 偏好 值 为 1 时 ,估计 偏好 和 实际 偏好 之 间 的 平均 差 值 。 
结果 自然 会 等 于 0; 这 个 测试 是 无 效 的 ， 因 为 它 只 能 输出 0。 

但 是 查 准 率 和 查 全 率 的 评估 仍 是 有 效 的 。 让 我 们 尝试 在 下 面 的 代码 清单 中 来 实现 它 。 


代码 清单 3-7 利用 布尔 型 数据 评估 查 准 率 和 查 全 率 


DataModel model = new GenericBooleanPrefDataModel ( 
new FileDataModel (new File("ua.base"))); 


RecommenderIRStatsEvaluator evaluator = 

new GenericRecommenderIRStatsEvaluator (); 

RecommenderBuilder recommenderBuilder = new RecommenderBuilder() { 

@Override 

public Recommender buildRecommender(DataModel model) { 

UserSimilarity similarity = new LogLikelihoodSimilarity (model); 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(10, similarity, model); 
return new GenericUserBasedRecommender ( 
model, neighborhood, similarity) ; 

} 
}; 
DataModelBuilder modelBuilder = new DataModelBuilder() { 

@Override 

public DataModel buildDataModel ( 

FastBylDMap<PreferenceArray> trainingData) { 
return new GenericBooleanPrefDataModeli ( 
GenericBooleanPrefDataModel.toDataMap(trainingData) ); 


} 
‘i 
IRStatistics stats = evaluator.evaluate( 

recommenderBuilder, modelBuilder, model, null, 10, 

GenericRecommenderIRStatsEvaluator.CHOOSE_THRESHOLD, 

1.004 
System. out.println(stats.getPrecision()); 
System.out.println(stats.getRecall()); 


所 得 查 准 率 和 查 全 率 都 是 大 约 24.7%。 这 不 算 太 好 ; 回顾 一 下 ， 这 意味 着 返回 的 推荐 中 只 有 
1/4 是 好 的 ， 而 好 的 推荐 中 只 有 1/4 在 返回 结果 中 。 

这 可 追查 出 另 一 个 问题 ; 仍 有 一 个 地 方 隐藏 着 偏好 值 : GenericUserBasedRecommender。 
这 个 推荐 程序 仍 基于 其 估计 的 偏好 对 推荐 进行 排序 ， 但 这 些 值 均 为 1.0。 因 此 顺序 基本 上 是 随机 
I, FAR, 你 可 以 引入 GenericBooleanPrefUserBasedRecommender ( 顾名思义 )。 这 个 变 体 
可 以 让 推荐 形成 更 有 意义 的 顺序 。 它 为 与 其 他 类 似 用 户 相关 的 物品 计算 权重 ， 用 户 相似 度 越 高 ， 
这 个 权重 越 大 。 它 并 不 生成 加 权 平 均 。 
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尝试 替代 这 个 实现 并 重新 运行 代码 。 结 果 大 约 为 22.9% 一 一 大 致 相同 。 这 显然 说 明 在 这 个 数 
据 上 我 们 并 未 使 用 一 个 超 高 效 的 推荐 系统 。 这 里 的 目的 并 不 是 修复 它 ， 而 仅仅 为 了 审视 如 何在 
Mahout 推 荐 程序 中 高 效 地 部 署 布尔 型 数据 。 

还 有 其 他 DataModel1 的 布尔 型 变种 。FileDataModel 会 在 输入 数据 不 包含 偏好 值 时 ( 行 只 
采用 userID，itemID 的 形式 )， 在 内 部 自动 使 用 cenericBooleanPrefDataModel。 类 似 地 ， 
MySQLBooleanPrefDataModel 适 合 在 数据 库 表 中 无 偏好 值 列 时 使 用 。 否 则 它 完 全 类 似 于 
MySQLJDBCDataModel。 特别 地 ， 这 种 实现 可 以 充分 利用 数据 库 中 更 多 的 快捷 方式 来 提高 性 能 。 

最 后 , 如 果 你 想 知 道 是 否 可 以 将 布尔 型 和 非 布尔 型 数据 在 一 个 DataModel 中 混合 使 用 , 那么 
答案 是 : 不 行 。 一 个 解决 办 法 是 忽略 偏好 值 ， 而 将 之 视 为 布尔 型 数据 。 或 者 ， 如 果 你 出 于 某 种 原 
因 不 希望 抛弃 它们 , 那些 缺失 的 偏好 值 可 以 通过 一 些 办 法 推测 出 来 , 即便 只 是 简单 地 填充 一 个 现 
有 偏好 值 的 平均 数 。 


3.4 ”小结 


在 本 章 , 我 们 探讨 了 如 何在 Mahout 的 推荐 程序 中 表示 偏好 数据 。 其 中 涉及 Preference 对 象 ， 
还 有 特定 的 数组 和 类 似 聚 合 的 实现 ， 如 PreferenceArray 和 FastByIDMap。 它们 主要 用 来 降低 
内 存 占 用 。 

我 们 研究 了 DataModel， 它 是 推荐 程序 输入 的 一 个 整体 抽象 。GenericDataModel 把 数据 
放 在 内 存 中 ， 就 像 FileDataModel 从 文件 中 读 取 输 入 数据 之 后 所 做 的 一 样 。JDBCDataModel 和 
其 他 实现 支持 基于 关系 库 表 的 数据 ; 我 们 特别 观察 了 与 MySQL 的 集成 。 

最 后 ， 我 们 查看 了 当 输 入 数据 仅 包 含 用 户 -物品 关联 ， 而 不 包含 偏好 值 时 所 带 来 的 变化 。 有 
时 ， 这 就 是 可 用 的 所 有 数据 ， 而 这 必然 减少 对 存储 的 需求 。 我 们 看 到 这 类 数据 不 兼容 于 
PearsonCorrelationSsimilarity 等 标准 组 件 。 我们 还 考虑 如 何 解决 这 类 问题 并 得 到 一 个 基于 
布尔 型 输入 数据 的 函数 级 推荐 程序 。 

下 一 章 ， 我 们 会 继续 检视 数据 表示 的 各 种 可 能 并 窥探 其 可 用 的 推荐 程序 实现 。 


THES 


本 章 内 容 

口 进一步 了 解 基 于 用 户 的 推荐 程序 
口 相似 性 度量 

口 基于 物品 的 推荐 程序 及 其 他 


我 们 用 了 一 章 的 篇 幅 来 讨论 如 何 评价 推荐 程序 ,以 及 推荐 程序 的 输入 数据 形式 ,是 时 候 来 深 
入 探究 推荐 程序 本 身 了 。 我 们 就 此 开始 切入 正题 。 

前 面 的 章节 提 到 两 类 典型 的 推荐 算法 , 它们 均 在 Mahout 中 得 到 实现 : 基于 用 户 的 推荐 程序 和 
基于 物品 的 推荐 程序 。 实 际 上 ， 在 第 2 章 我 们 已 经 遇 到 过 一 个 基于 用 户 的 推荐 程序 。 本 章 将 仔细 
探究 和 讨论 这 些 算法 背后 的 理论 及 其 在 Mahout 中 的 实现 。 

两 种 算法 均 依赖 于 两 个 事物 (用户 或 物品 ) 之 间 的 相似 性 度量 , 或 者 说 等 同性 定义 。 相 似 性 
的 定义 有 多 种 ， 本 章 将 详细 介绍 Mahout 中 可 供 选择 的 方法 。 它 们 包括 基于 皮尔 逊 相关 系数 
( Pearson correlation )、 对 数 似 然 值 (log likelihood )、 斯 皮尔 曼 相关 系数 ( Spearman correlation )、 
谷 本 系数 (Tanimoto coefficient ) 等 的 实现 。 

最 终 ， 本 章 还 会 介绍 Mahout 中 实现 的 其 他 几 种 推荐 算法 ， 包 括 slope-one 、 基 于 SVD 
( SVD-based ) 和 基于 聚 类 (clustering-based ) 的 推荐 算法 。 


4.1 理解 基于 用 户 的 推荐 


如 果 你 看 过 前 面 所 讲 的 推荐 算法 ,就 会 知道 它 是 一 种 基于 用 户 的 推荐 算法 。 它 是 在 这 个 领域 
早期 研究 中 阐述 的 方法 ，Mahout 自 然 会 有 它 的 实现 。“ 基 于 用 户 ” 这 个 说 法 有 些 不 准确 ， 因 为 所 
有 推荐 算法 都 建立 在 与 用 户 和 物品 相关 的 数据 上 。 基 于 用 户 的 推荐 算法 的 典型 特征 是 , 它 建立 在 
用 户 间 有 某 种 相似 性 的 基础 之 上 。 事 实 上 ， 这 种 算法 在 日 常生 活 中 很 常见 。 


4.1.1 推荐 何 时 会 出 错 


你 是 否 曾 收 到 CD 这 样 的 礼物 ? BE (Sean) 在 小 时 候 从 好 心 的 成 年 人 那里 收 到 过 。 其 中 一 个 
成 年 人 走 进 当 地 的 音乐 商店 并 询问 店员 ， 于 是 有 了 下 面 的 场景 : 
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成 年 人 : 我 要 为 一 个 男孩 儿 买 张 CD。 
Je ih: 好 的 ， 他 喜欢 什么 ? 
成 年 人 : 呢 ， 现 在 的 孩子 都 喜欢 些 什么 ? 
Je 员 : 他 喜欢 什么 音乐 或 乐队 呢 ? 
成 年 人 : 对 我 而 言 ， 那 些 都 太 吵 了 ， 呢 ， 我 不 知道 。 
店 员 ; OB, ARPS 我 猜 大 多 数 年 轻 人 都 会 购买 New 2 Town 这 个 男生 组 合 的 专辑 。 
成 年 人 : 就 它 了 ! 
结果 可 想 而 知 。 不 用 说 ,他 们 送 的 礼物 并 非 是 我 想 要 的 。 遗 憾 的 是 , 这 种 基于 用 户 进 行 推荐 
导致 出 错 的 事情 比比 皆 是 。 但 这 种 直觉 还 是 对 的 : 因为 年 轻 人 在 音乐 上 的 品味 通常 比较 接近 , 一 
个 年 轻 人 很 可 能 会 喜欢 其 他 年 轻 人 追捧 的 专辑 。 根 据 人 群 之 间 的 相似 度 进行 推荐 是 非常 合理 的 。 
当然 , 推荐 一 个 女孩 儿 们 追捧 的 乐队 专辑 给 男孩 儿 们 可 能 并 不 合适 。 这 里 的 问题 在 于 相似 性 
度量 不 再 有 效 。 是 的 , 一群 年 轻 人 会 有 相对 一 致 的 品味 : 相对 于 柴 迪 科 舞 ( zydeco ) 和 古典 音乐 ， 
流行 音乐 可 能 更 受 欢 迎 。 但 是 ,这 种 相似 性 太 脆弱 而 难以 为 用 : 当 把 音乐 作为 推荐 对 象 时 ， 女孩 
儿 们 与 男孩 儿 们 并 没有 足够 多 的 共性 。 


4.1.2 ”推荐 何 时 是 正确 的 


让 我 们 回 到 前 面 的 场景 ， 来 想象 一 个 更 好 的 情景 : 


成 年 人 : 我 要 为 一 个 男孩 儿 买 张 CD。 

店 员 : 他 喜欢 哪 种 音乐 或 者 乐队 ? 

成 年 人 : 我 不 知道 ， 但 他 最 好 的 朋友 经 常 穿 一 件 Bowling In Hades#9 The, 

店 员 : 我 知道 ， 一 个 来 自 克 利夫 兰 的 非常 流行 的 新 金属 乐队 。 我 们 正好 有 

Bowling In Hades 的 最 新 专辑 Impossible Split: The Singles 1997-2000. 
这 次 好 多 了 。 这 个 推荐 基于 这 样 的 假设 , 即 两 个 好 朋友 在 音乐 上 的 品味 会 有 些 类 似 。 相 似 性 

度量 比较 可 靠 时 ， 结 果 就 可 能 会 更 好 。 两 个 好 朋友 都 喜欢 Bowling In Hades 的 可 能 性 比 任意 两 个 
年 轻 人 大 得 多 。 还 有 一 些 其 他 的 途径 能 让 结果 更 好 : 


成 年 人 : 我 要 为 一 个 男孩 儿 买 张 CD。 
Fe 员 : 他 喜欢 哪 种 音乐 或 者 乐队 ? 
成 年 人 :“ 音 乐 ? ”, 哈 , 很 好 , 我 从 他 卧室 墙 上 的 海报 里 抄 下 了 乐队 名 。The Skulks、 
Rock Mobster, Wild Scallions------ 你 这 里 有 吗 ? 
店 员 : 我 看 看 。 这 些 专 辑 我 的 孩子 也 有 一 些 。 他 总 是 在 不 停 地 谈论 一 些 Diabolical 
Florist 的 新 专辑 ， 那 么 也 许 …… 
现在 相似 度 的 推断 直接 来 自 于 对 音乐 的 品味 。 因 为 其 中 所 提 及 的 两 个 孩子 都 喜欢 一 些 相 同 的 
乐队 , 有 理由 相信 他 们 都 会 喜欢 对 方 的 其 他 收藏 。 这 比 基 于 他 们 是 好 朋友 来 猜测 他 们 的 品味 更 为 
可 靠 。 这 种 思路 通过 观察 年 轻 人 对 音乐 的 品味 来 推断 他 们 之 间 的 相似 度 。 这 是 基于 用 户 的 推荐 系 
统 最 基本 的 逻辑 。 
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如 果 那 两 个 人 继续 谈 下 去 ,可 能 还 会 得 到 更 好 的 推测 。 为 什么 只 根据 一 个 孩子 的 音乐 收藏 来 
挑选 礼物 呢 ? 何不 多 考虑 几 个 类 似 的 孩子 ”他 们 会 留意 哪些 孩子 更 为 相似 (那些 海报 、T 恤 和 散 
放 在 唱片 机 上 的 CD 大 多 相同 的 )， 还 会 观察 那些 最 相似 的 孩子 都 关注 什么 乐队 , 并 据 此 来 选择 最 
合适 的 礼物 。( 然后 ， 他 们 也 许 会 成 为 Mahout 的 用 户 ! ) 


4.2.1 算法 


基于 用 户 的 推荐 算法 就 来 自 这 种 直觉 。 下 面 是 一 个 为 用 户 〈 记 为 u ) 进行 推荐 的 过 程 : 


for (用 户 U 尚 未 表达 偏好 的 ) 每 个 物品 并 
for (对 4 有 偏好 的 ) 每 个 其 他 用 户 V 
计算 u 和 Vv 之 间 的 相似 度 s 
按 权 重 为 s 将 V 对 并 的 偏好 并 入 平均 值 

return 值 最 高 的 物品 ( 按 加 权 平 均 排 序 ) 

外 层 循环 简单 地 把 每 个 已 知 物品 ( 用户 未 对 其 表达 过 偏好 的 ) 作为 候选 的 推荐 项 。 内 层 循环 
逐个 查看 对 候选 物品 做 过 评价 的 其 他 用 户 , 并 记 下 他 们 对 该 物品 的 偏好 值 。 最 终 , 将 这 些 值 的 加 
权 平 均 作 为 目标 用 户 对 该 物品 偏好 值 的 预测 。 每 个 偏好 值 的 权重 取决 于 该 用 户 与 目标 用 户 之 间 的 
相似 度 。 与 目标 用 户 越 相 似 ， 他 的 偏好 值 所 占 权 重 越 大 。 

但 是 , 每 个 物品 都 检查 实在 是 太 慢 了 。 实际 应 用 中 , 通常 会 先 计 算出 一 个 最 相似 用 户 的 邻 域 ， 
然后 仅 考虑 这 些 用 户 评价 过 的 物品 : 

Eor 每 个 其 他 用 户 w 

计算 用 户 u 和 用 户 w 的 相似 度 S 
按 相似 度 排 序 后 ， 将 位 置 靠 前 的 用 户 作 为 邻 域 n 
for (ap AP Aiki, nut AP AR) 每 个 物品 主 
for (nP APIA HH) 每 个 其 他 用 户 V 
计算 用 户 U 和 用 户 V 的 相似 度 s 
按 权 重 s 将 Vv 对 并 的 偏好 并 入 平均 值 

这 一 过 程 与 前 面 的 主要 区 别 在 于 首先 确定 相似 的 用 户 , 再 考虑 这 些 最 相似 用 户 对 什么 物品 感 
兴趣 。 这 些 物品 就 成 为 推荐 的 候选 项 。 后 续 的 过 程 是 一 样 的 。 这 就 是 标准 的 基于 用 户 的 推荐 算法 ， 
也 是 它 在 Mahout 中 的 实现 方式 。 


4.2.2 ”基于 GenericUserBasedRecommender 实 现 算法 


本 书 最 早 的 推荐 程序 示例 展示 了 Mahout 中 一 个 实际 的 基于 用 户 的 推荐 程序 ( 代码 清单 2-2 )。 
现在 我 们 回顾 一 下 它 的 构成 ， 并 对 它 的 性 能 进行 评估 。 


代码 清单 4-1 回顾 一 个 简单 的 基于 用 户 的 推荐 系统 


DataModel model = new FileDataModel (new File("intro.csv")); 
UserSimilarity similarity = new PearsonCorrelationSimilarity (model); 


42 探索 基于 用 户 的 推荐 程序 37 


UserNeighborhood neighborhood = 
new NearestNUserNeighborhood (2, similarity, model); 
Recommender recommender = 
new GenericUserBasedRecommender (model, neighborhood, similarity) ; 


UserSimilarity 封 装 了 用 户 间 相似 性 的 概念 , 而 UserNeighborhood 封 装 了 最 相似 用 户 组 
的 概念 。 它 们 是 标准 的 基于 用 户 推荐 算法 的 必要 组 件 。 

相似 性 的 定义 不 是 唯一 的 一 一 前 面 选 择 CD 的 对 话 反 映 了 在 现实 生活 中 人 们 关于 相似 性 的 
几 种 看 法 。 同 样 ， 最 近邻 用 户 也 有 多 种 不 同 的 定义 : 最 相似 的 5 个 ， 还 是 20 个 ， 还 是 所 有 相似 
EXT BUI ALP? 为 帮助 理解 这 些 选 项 , 想象 一 下 , 假设 你 正在 列 一 个 婚礼 客人 的 清单 。 
你 想 邀 请 最 亲密 的 朋友 和 家 庭 成 员 出 席 , 但 是 你 的 朋友 和 家 人 远 远 超过 预算 允许 的 人 数 。 为 了 
决定 邀请 谁 以 及 不 邀请 谁 ， 你 是 不 是 会 先 定 一 个 人 数 〈 比如 50 人 )， 然 后 来 选择 最 亲近 的 50 个 
朋友 或 家 人 ? 50 是 一 个 合适 的 数字 吗 ? 40 或 100 怎 么 样 ? 或 者 ， 你 会 邀请 每 一 个 你 认为 很 亲近 
的 人 吗 ? 你 会 仅仅 邀请 真正 的 好 朋友 吗 ? 谁 会 让 你 的 婚礼 派对 非常 成 功 ? 选择 用 户 邻 域 与 此 
类 似 。 

引入 新 的 相似 性 度量 , 结果 就 会 发 生 显著 变化 。 由 此 可 知 ,提供 推荐 的 方式 是 多 种 多 样 的 一 
一 而 这 还 只 是 调整 了 方法 的 一 个 侧面 。Mahout 是 由 多 个 组 件 混搭 而 成 的 ， 而 非 单 一 的 推荐 引擎 ， 
其 各 个 组 件 的 组 合 可 以 定制 ， 从 而 针对 特定 应 用 提供 理想 的 推荐 。 通 常 包括 如 下 组 件 : 

口 数据 模型 ， 由 DataModel 实 现 ; 

口 用 户 间 的 相似 性 度量 ， 由 Usersimilarity 实 现 ; 

口 用 户 邻 域 的 定义 ， 由 UserNeighborhood 实 现 ; 

口 推荐 引擎 ， 由 一 个 Recommender 实 现 ( 此 处 为 GenericUserBasedRecommender )。 

要 想 推 荐 得 更 好 更 快 ， 就 必然 需要 经 历 一 个 漫长 的 试验 和 调 优 过 程 。 


4.2.3 ”尝试 GroupLens 数 据 集 


证 我 们 回 到 GroupLens 数 据 集 ， 并 将 所 用 数据 增加 100 倍 。 到 http:/grouplens.org 下 载 包含 1000 
万 个 评分 的 MovieLens 数 据 集 ， 目 前 它 可 以 从 地 址 http://www.grouplens.org/node/73 获 得 。 在 本 地 
解压 后 找到 其 中 的 ratings.dat 文 件 。 

出 于 某 种 原因 ， 该 数据 的 格式 有 别 于 之 前 的 100 000 评 分 数据 集 。 其 中 ua.base 文 件 可 直接 用 
于 FileDataModel， 但 该 数据 集 的 ratings.dat 文 件 则 不 能 。 简 单 的 做 法 是 使 用 标准 的 命令 行文 本 
处 理工 具 将 其 转换 为 逗号 分 隔 的 形式 ， 通 常 这 也 是 最 好 的 办 法 。 专 门 编写 代码 来 转换 文件 格式 ， 
或 使 用 定制 的 pataModael ， 这 不 仅 烦 琐 而 且 容 易 出 错 。 

幸运 的 是 ， 针 对 这 个 特例 ?还 有 一 个 更 简单 的 办 法 。Mahout 的 示例 模块 (examples) 包含 
了 一 个 定制 的 GroupLensDataModel 实 现 ， 它 扩展 了 FileDataModel 以 读 取 这 个 文件 。 你 需要 
确保 这 个 代码 在 IDE 项 目的 examples/src/java/main 目 录 下 。 然 后 ， 如 代码 清单 4-2 所 示 的 内 容 蔡 换 


FileDataModel. 


O 仅 针 对 Gouplens 数 据 集 。 一 一 译 者 注 
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代码 清单 4-2 更 新 代码 清单 4-1 来 使 用 为 GroupLens 定 制 的 DataModel 


DataModel model = new GroupLensDataModel (new File("ratings.dat")); 
UserSimilarity similarity = new PearsonCorrelationSimilarity (model); 


UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(100, similarity, model); 


Recommender recommender = 
new GenericUserBasedRecommender (model, neighborhood, similarity); 


LoadEvaluator.runLoad (recommender) ; 
运行 这 段 代 码 ， 首先 遇 到 Sp gel rge kogo hre T 
规模 问题 。 默 认 情 况 下 ，Java 不 会 把 堆 (heap) 大 小 设 得 过 大 。 而 ， 必 须 增加 Java 可 用 的 


堆 空 间 。 
这 是 一 个 探讨 如 何 调节 JVM 来 改善 性 能 的 好 机 会 。 可 参考 附录 A 更 深入 地 了 解 JVM 调 优 。 


4.2.4 ”探究 用 户 邻 域 


下 面 我 们 来 评估 推荐 程序 的 精度 。 代 码 清单 4-3 再 次 给 出 了 评估 代码 示例 ; 在 此 之 后 ， 我 们 


会 认为 你 已 经 对 它 有 了 充分 的 了 解 ， 并 可 以 独立 构造 和 进行 评估 。 
现在 , 我 们 尝试 配置 并 调整 该 邻 域 的 实现 ， 如 下 面 的 代码 清单 所 示 。 记 住 , 这 里 使 用 的 数据 


同样 多 出 了 100 倍 。 
代码 清单 4-3 ”对 这 个 简单 的 推荐 引擎 进行 评估 


DataModel model = new GroupLensDataModel (new File("ratings.dat")); 
RecommenderEvaluator evaluator = 
new AverageAbsoluteDifferenceRecommenderEvaluator (); 
RecommenderBuilder recommenderBuilder = new RecommenderBuilder() { 
@Override 
public Recommender buildRecommender ( 
DataModel model) throws TasteException { 
UserSimilarity similarity = new PearsonCorrelationSimilarity (model) ; 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(100, similarity, model); 
return new GenericUserBasedRecommender ( 
model, neighborhood, similarity); 


} 
}; 
double score = evaluator.evaluate( 
recommenderBuilder, null, model, 0.95, 0.05); 
System.out.println(score) ; 


TEM, evaluate () 的 最 后 一 个 参数 是 0.05。 这 意味 着 仅 有 5% 的 数据 用 于 评估 。 这 纯粹 是 为 
了 方便 ; 评估 是 一 个 耗 时 的 过 程 ， 使 用 全 部 数据 会 花 上 几 个 小 时 。 为 了 快速 评估 变化 ， 比 较 简便 
的 做 法 是 减 小 这 个 值 。 但 是 使 用 的 数据 太 少 可 能 会 影响 到 评估 结果 的 精度 。 参 数 0.95 就 是 说 使 用 
OSTERIE, EERS FASAD, 

代码 运行 所 得 到 的 结果 可 能 会 有 出 人 ， 但 约 为 0.89。 


42 探索 基于 用 户 的 推荐 程序 39 


4.2.5 固定 大 小 的 邻 域 


此 时 ， 代 码 清单 4-3 中 代码 所 给 出 的 推荐 来 自 于 100 个 最 相似 用 户 构成 的 邻 域 (Nearest- 
NUserNeighborhood 被 设 为 邻 域 大 小 100 )。 推 荐 所 依赖 的 最 相似 用 户 为 100 个 ， 这 个 选择 是 随 
意 的 。 如 果 选 择 10 个 会 怎么 样 ? 推荐 所 依赖 的 相似 用 户 虽 然 少 了 , 但 也 会 排除 一 些 相 似 度 较 低 的 
用 户 。 包 含 3 个 最 相似 用 户 的 邻 域 如 图 4-1 所 示 。 


图 4-1 通过 确定 最 相似 用 户 的 数量 来 定义 用 户 的 邻 域 。 这 里 ， 距 离 表 示 相 似 度 : 
越 远 则 越 不 相似 。 用 户 1 的 邻 域 由 3 个 最 相似 的 用 户 组 成 : 5、4 和 2 


尝试 用 10 来 替代 100。 推 荐 的 评估 结果 ， 即 估计 值 与 实际 偏好 值 的 平均 差异 ， 为 0.98 左 右 。 
考虑 到 这 一 评估 值 越 大 越 不 好 , 这 意味 着 选 错 方向 了 。 最 可 能 的 解释 是 10 个 用 户 太 少 了 。 很 可 能 
后 面 的 用 户 会 有 价值 ， 如 最 相似 的 第 11 个 、 第 12 个 用 户 等 。 他 们 不 仅 仍 有 很 大 的 相似 度 ， 而 且 可 
能 会 关联 到 前 10 个 用 户 没 有 涉及 的 一 些 物 品 。 

尝试 500 个 用 户 的 邻 域 ; 结果 降 为 0.75， 这 个 结果 自然 较 优 。 你 可 以 多 试 一 些 值 来 为 这 个 数 
据 集 找到 最 佳 选 项 , 但 事实 上 并 不 存在 一 个 万 能 的 值 ; 在 真实 数据 上 做 一 些 试验 对 推荐 程序 的 调 
优 来 说 是 很 必要 的 。 


4.26 ”基于 阅 值 的 邻 域 


假如 不 想 用 nm 个 最 相似 用 户 构建 邻 域 ,那么 如 何 直接 选择 那些 很 类 似 的 用 户 并 忽略 其 他 人 
呢 ? 你 可 以 确定 一 个 相似 度 冰 值 ， 并 选择 所 有 相似 度 超过 这 个 阔 值 的 用 户 。 图 4-2 展 示 了 一 个 基 
于 立 值 的 用 户 邻 域 定义 ,你 可 将 其 与 图 4-1 中 的 固定 大 小 的 邻 域 相对 照 。 


图 4-2 ”通过 一 个 相似 度 阔 值 来 定义 最 相似 用 户 的 邻 域 
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冰 值 应 该 设 在 -1 和 1 之 间 ， 因 为 所 有 的 相似 性 度量 返回 的 相似 度 值 都 在 该 区 间 内 。 目 前 ， 我 
们 的 示例 使 用 标准 的 皮尔 逊 相关 系数 作为 相似 性 的 度量 标准 。 熟 悉 这 种 相关 方法 的 读者 应 该 知道 
0.7 及 以 上 的 值 意味 着 高 度 相 关 , 可 作为 非常 相似 的 一 个 合理 定义 。 让 我 们 改 用 rhresholdUser- 
Neighborhood. 简单 地 修改 一 行 来 实例 化 ThresholdUserNeighborhood: 


new ThresholdUserNeighborhood(0.7, similarity, model) 

现在 评估 程序 给 推荐 程序 的 评分 为 0.84。 如 果 更 严格 的 限定 阔 值 ， 使 用 0.9 会 如 何 ? 评分 为 
0.92， 即 性 能 更 差 了 ; 前 面 的 解释 同样 适用 于 此 处 一 一 此 阔 值 限定 的 邻 域 包含 的 用 户 数 太 少 。 如 
果 设 为 0.5 呢 ? 评分 变 好 了 ， 可 降 至 0.78。 后 面 的 示例 会 将 这 种 邻 域 的 冰 值 设 为 0.5。 

现在 , 你 可 能 想 在 真实 数据 上 尝试 更 多 的 阔 值 以 得 到 一 个 最 优 结果 , 不 过 我 们 通过 简单 的 试 
验 已 经 将 估计 精度 提高 了 大 约 15%。 
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基于 用 户 的 推荐 程序 的 男 一 个 重要 部 分 是 Usersimilarity 实 现 。 基于 用 户 的 推荐 程序 非常 
依赖 这 个 组 件 。 如 果 对 用 户 之 间 的 相似 性 缺乏 可 靠 并 有 效 的 定义 ， 这 类 推荐 方法 是 没有 意义 的 。 
这 也 适用 于 基于 用 户 的 推荐 程序 的 “近亲 ”一 一 基于 物品 的 推荐 程序 ， 它 同样 依赖 于 相似 性 。 这 
一 组 件 十 分 重要 , 我 们 将 用 接近 本 章 1/3 的 篇 幅 来 讨论 标准 的 相似 性 度量 及 其 在 Mahout 中 的 实现 。 


4.3.1 基于 皮尔 逊 相关 系数 的 相似 度 


到 目前 为 止 , 示例 都 使 用 了 PearsonCorrelationSimilarity 这 一 实现 , 它 是 一 个 基于 皮 
尔 逊 相关 系数 的 相似 性 度量 标准 。 

皮尔 逊 相关 系数 是 一 个 介 于 -1 和 1 之 间 的 数 ， 它 度量 两 个 一 一 对 应 的 数列 之 间 的 线性 相关 程 
度 。 也 就 是 说 ， 它 表示 两 个 数列 中 对 应 数字 一 起 增 大 或 一 起 减 小 的 可 能 性 。 它 度量 数字 一 起 按 比 
例 改变 的 倾向 性 ,也 就 是 说 两 个 数列 中 的 数字 存在 一 个 大 致 的 线性 关系 。 当 该 倾向 性 强 时 ， 相关 
值 趋 于 1。 当 相关 性 很 弱 时 ， 相 关 值 趋 于 0。 在 负 相 关 的 情况 下 一 一 一 个 序列 的 值 高 而 另 一 个 序列 
的 值 低 一 一 相关 值 趋 于 -1。 


注意 ”对 于 熟悉 统计 学 的 读者 而 言 ， 皮 尔 逊 相关 系数 是 两 个 序列 协 方 差 与 二 者 方差 乘积 的 比值 。 
协 方差 计算 的 是 两 个 序列 变化 趋势 一 致 的 绝对 量 。 当 两 个 序列 相对 于 各 自 的 均值 点 向 同 
一 方向 移动 得 越 远 ， 协 方差 值 就 越 大 。 除 以 方差 则 是 为 了 对 这 一 变化 进行 归 一 化 。 使 用 
Mahout 中 的 皮尔 逊 相 关系 数 并 不 需要 理解 这 些 定义 ， 但 如 果 你 有 兴趣 ， 可 以 从 网 络 上 找 
到 大 量 相关 信息 。 


这 一 统计 学 中 广泛 使 用 的 概念 , 同样 可 以 用 于 度量 用 户 之 间 的 相似 性 。 它 度量 两 个 用 户 针 对 
同一 物品 的 偏好 值 变 化 趋势 的 一 致 性 一 一 都 偏 高 或 都 偏 低 。 举 个 例子 , 再 看 看 我 们 用 过 的 第 一 个 
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样本 数据 文件 intro.csv， 如 下 所 示 。 
代码 清单 4-4 ”一 个 简单 的 推荐 系统 输入 文件 


i101; 
102 
103 


H. 


101 
102 
103 
104 


101 
104 
105 
10T; 


101, 
103; 
104, 
,106, 


¿ 101, 
702; 
103 
104 
105 
106, 


我 们 注意 到 用 户 1 和 5 看 起 来 相似 ， 因 为 他 们 的 偏好 值 好 像 在 一 同 改变 。 对 于 物品 101、102 
和 103， 他 们 大 体 达成 一 致 :，101 最 好 ，102 略 差 ， 而 103 不 理想 。 类 似 地 ， 用户 1 和 用 户 2 则 不 那么 
相似 。 注 意 我 们 关于 用 户 1 的 分 析 不 包括 物品 104 ~ 106， 因 为 用 户 1 对 它们 的 偏好 是 未 知 的。 相似 
度 的 计算 仅 能 在 用 户 都 表达 了 偏好 的 物品 上 进行 。( 在 4.3.9 节 ， 我 们 将 看 到 缺失 偏好 值 的 时 候 该 
怎么 进行 推测 。) 

皮尔 逊 相关 系数 可 表达 这 些 相似 性 ， 如 表 4-1 所 示 。 这 里 不 再 重复 计算 的 细节 ; 可 参考 在 线 
资源 ， 如 http:/www.socialresearchmethods.net/kb/statcorrphp ， 了 解 相关 系数 计算 的 说 明 。 


BW PNW 心 Poe WU UP FN NUNN N wu 
oumuooco°9o OUoo ouow oouo uoo 


(5 uw PP 心 心 w www NNN ND re 


表 4-1 在 用 户 1 和 其 他 用 户 之 间 基 于 3 个 共有 物品 的 皮尔 逊 相关 系数 
物品 101 物品 102 物品 103 与 用 户 1 的 相关 性 


半 用 户 与 其 自身 的 皮尔 逊 相关 系数 总 是 1.0。 
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4.3.2 ”皮尔 逊 相 关系 数 存 在 的 问题 


尽管 结果 很 直观 ， 但 某 些 情况 下 皮尔 逊 相关 系数 在 推荐 引擎 中 的 表现 会 有 点 奇怪 。 
首先 , 它 没有 考虑 两 个 用 户 同 时 给 出 偏好 值 的 物品 数目 ,在 推荐 引擎 中 这 可 能 不 太 可 靠 。 例 
如 ， 两 个 看 过 200 部 相同 电影 的 用 户 ， 即 便 他 们 给 出 的 评分 偶尔 不 一 致 ， 但 可 能 要 比 两 个 仅 看 过 
两 部 相同 电影 的 用 户 更 相似 。 这 在 之 前 的 数据 中 有 所 体现 ; 注意 , 用 户 1 和 5 对 三 个 共同 物品 表达 
了 偏好 ， 他 们 的 品位 看 似 比 较 相 近 。 但 是 ， 用 户 1 和 4 的 交集 仅 包含 两 个 物品 ， 却 得 到 了 1.0 这 个 
更 高 的 相关 值 。 这 有 点 不 符合 常规 。 
其 次 , 基于 该 计算 的 定义 ,如果 两 个 用 户 的 交集 仅 包 含 一 个 物品 ， 则 无 法 计算 相关 性 。 这 也 
是 没有 计算 用 户 1 和 3 之 间 相 关 性 的 原因 。 在 小 的 或 稀 玻 的 数据 集 上 ， 这 个 问题 就 会 凸现 出 来 ， 因 
为 其 中 用 户 的 物品 集 很 少 重 肆 。 当 然 ， 这 可 能 也 是 一 种 优点 : 直观 上 讲 ， 如 果 两 个 用 户 的 交集 仅 
有 一 个 物品 的 话 ， 他 们 可 能 并 不 太 相 似 。 
最 后 ， 只 要 任何 一 个 序列 中 出 现 偏好 值 相 同 的 情况 "， 相 关系 数 都 是 未 定义 的 《undefined )。 
这 种 情况 并 不 需要 两 个 序列 中 的 偏好 值 都 完全 一 样 。 例 如 ， 若 用 户 5 对 所 有 三 个 物品 的 偏好 值 都 
是 3.0， 即 使 用 户 1 有 3.0 以 外 的 偏好 值 ， 也 无 法 计算 用 户 1 与 用 户 5 之 间 的 相似 度 〈 因 为 皮尔 逊 相关 
系数 将 是 未 定义 的 )。 这 一 问题 同样 很 可 能 出 现在 两 个 用 户 的 偏好 交集 很 小 的 情形 。 
Ch) 尽管 皮尔 逊 相关 系数 在 早期 关于 推荐 系统 的 论文 中 很 常见 ”， 并 且 在 很 多 介绍 推荐 系统 的 书 
No.4 中 被 提 及 ， 但 它 未 必 是 最 优 的 。 当 然 ， 它 也 并 不 差 ; 你 只 需要 理解 它 是 如 何 工作 的 。 


4.3.3 引入 权重 


为 了 解决 上 述 问 题 , PearsoncorrelationSsimilarity 在 标准 计算 公式 的 基础 上 提供 了 一 
个 扩展 ， 即 加 权 ( weighting )。 

皮尔 逊 相关 系数 并 不 直接 反映 其 用 到 的 物品 数目 ， 而 我 们 是 需要 这 个 数字 的 。 考虑 的 信息 越 
多 ， 所 得 的 相关 结果 就 越 可 靠 。 为 了 体现 这 一 观点 ， 最 好 在 基于 较 多 物品 计算 相关 系数 时 ， 使 正 
相关 值 向 1.0 偏 移 ， 而 使 负 相关 值 向 -1.0 偏 移 。 或 者 ， 当 基于 较 少 的 物品 计算 相关 系数 时 ， 可 以 让 
相关 值 向 偏好 值 的 均值 偏 移 ; 这 与 前 面 的 效果 类 似 , 但 实现 会 较为 复杂 ， 因 为 它 需要 记录 用 户 对 
的 平均 偏好 值 。 

在 代码 清单 4-3 中 ， 将 值 weighting.wEIGHTED 作 为 第 二 个 参数 传递 给 Pearson- 
CorrelationSimilarity 的 构造 函数 即 可 实现 上 述 方法 。 它 会 根据 计算 相关 系数 所 用 的 数据 点 
BC, 使 偏好 值 向 1.0 或 -1.0 偏 移 。 在 这 种 情况 下 ， 重 新 运行 前 面 的 评估 程序 ， 可 以 看 到 分 值 有 所 改 
善 ， 变 为 0.77。 


D 此 时 该 序列 方差 为 0， 导 致 皮尔 逊 相关 系数 计算 公式 中 的 分 母 为 0。 一 一 译 者 注 

@ 附录 C 列 出 了 一 些 相 关 文 献 。 可 重点 参考 Breese、Heckerman 、Kadie 的 “Empirical Analysis of Predictive Algorithms 
for Collaborative Filtering” MÆ Herlocker. Konstan, Borchers#ilRiedli) “An Algorithmic Framework for Performing 
Collaborative Filtering” 这 两 篇 文章 。 
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4.3.4 基于 欧 氏 距离 定义 相似 度 


下 面 让 我 们 尝试 使 用 EuclideanDistanceSimilarity 一 一 将 代码 清单 4-3 中 Usersimilarity 的 
实现 改 为 new EuclideanDistanceSimilarity (model) Bal, 

这 一 实现 基于 用 户 之 间 的 距离 。 你 可 以 将 用 户 想象 成 多 维 空间 中 的 点 ( 维 数 等 于 总 的 物品 
数 )， 偏 好 值 是 坐标 。 这 种 相似 性 度量 计算 两 个 用 户 点 之 间 的 欧 氏 距离 4”。 这 个 值 本 身 并 不 代表 
相似 度 ， 因 为 该 值 越 大 表示 距离 越 远 , 也 就 是 说 两 个 用 户 越 不 相似 。 用 户 越 相似 ， 这 个 值 应 该 越 
小 。 因 此 ， 实 际 应 用 中 取 1(1+q) 为 相似 度 。 表 4-2 展 示 了 一 些 示 例 。 可 以 证 明 ， 距 离 为 0 ( 用 户 间 
的 偏好 完全 相同 ) 时 ， 它 的 结果 为 1， 而 随 着 4 的 增加 ， 会 逐渐 递减 为 0。 这 种 相似 性 度量 不 会 返 
回 负数 ， 而 且 值 越 大 表示 相似 度 越 高 。 


表 4-2 ”用户 1 与 其 他 用 户 之 间 的 欧 氏 距离 及 所 得 到 的 相似 度 评分 
物品 101 物品 102 物品 103 与 用 户 1 的 相似 度 


在 代码 清单 4-3 改 用 EuclideanDistanceSimilarity 后 ， 得 到 结果 0.75; 比 之 前 强 一 点 ， 
但 差别 不 大 。 注 意 这 里 可 以 计算 出 任何 用 户 之 间 的 相似 度 ， 而 皮尔 逊 相关 系数 就 无 法 得 出 用 户 1 
与 用 户 3 之 间 的 相似 度 。 这 算是 欧 氏 距离 的 一 个 优点 ,但 是 根据 一 个 共同 物品 得 到 的 结果 并 不 可 
靠 。 基于 欧 氏 距离 的 实现 同样 可 能 得 出 一 些 与 直觉 不 符 的 结果 : 用 户 1 和 用 户 4 之 间 的 相似 度 高 于 
用 户 1 和 用 户 5。 


435 ”采用 余弦 相似 性 度量 


余弦 相似 性 度量 (cosine measure similarity ) 也 将 用 户 偏 好 值 视 为 空间 中 的 点 ， 并 基于 此 进 
行 相似 性 度量 。 你 需要 将 用 户 偏好 值 视 为 n 维 空间 中 的 点 。 现 在 ,假设 有 两 条 从 原点 一 一 或 者 说 
(0,0,…,0) 一 一 出 发 ,分 别 到 这 两 个 点 的 射线 。 如 果 两 个 用 户 相 似 ， 则 他 们 的 打分 也 相似 ,也 就 是 
说 他 们 的 空间 位 置 是 很 接近 的 , 这 样 一 来 至少 这 两 条 射线 的 方向 也 会 差不多 ,两 条 射线 之 间 的 
夹 角 会 比较 小 。 反 之 ， 如 果 两 个 用 户 不 相似 ， 则 相应 的 两 个 点 会 相隔 较 远 ， 从 原点 到 这 两 点 的 射 
线 很 有 可 能 指向 不 同 的 方向 ， 形 成 的 夹 角 会 比较 大 。 

与 欧 氏 距离 类 似 ， 这 个 夹 角 同 样 可 以 用 来 度量 相似 性 。 在 这 种 情况 下 , 夹 角 余弦 代表 相似 度 
值 。 如 果 你 对 三 角 函 数 不 熟 悉 ， 那 么 记 住 这 点 就 行 了 : 余弦 取 值 范围 在 -1 到 1 之 间 ， 小 的 夹 角 余 
弦 接 近 1， 大 的 夹 角 ( 接近 180° ) 余弦 接近 -1。 这 个 性 质 很 好 ， 因 为 小 的 夹 角 映 射 到 了 较 高 的 相 


回忆 一 下 ， 欧 氏 距 离 就 是 各 维 坐 标 之 差 的 平方 和 的 平方 根 。 
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似 度 值 ， 趋 于 1， 而 大 的 夹 角 则 映射 到 -1 附近 。 

你 可 能 试图 在 Mahout 中 寻找 类 似 cosineMeasureSsimilarity 的 东西 ， 但 实际 上 它 已 经 以 
一 个 意料 之 外 的 名 字 出 现 过 了 : PearsonCorrelationSimilarity。 余弦 相似 性 度量 与 皮尔 挝 
相关 系数 并 不 是 同一 个 东西 , 但 如 果 有 耐心 做 一 些 数学 推理 , 你 会 发 现 当 两 个 输入 序列 均值 都 为 
0 (中 心 化 ) 时 ， 它 们 归结 为 同一 个 计算 过 程 。 因 为 在 Mahout 实 现 中 会 将 输入 中 心 化 ， 因 此 这 两 
个 度量 标准 就 变 成 一 样 的 了 。 

余弦 相似 性 度量 在 协同 过 滤 中 经 常 出 现 。 你 可 以 简单 地 通过 PearsonCorrelationsimilarity 
来 使 用 这 一 相似 性 度量 。 


43.6 ”采用 斯 皮尔 曼 相 关系 数 基于 相对 排名 定义 相似 度 


对 于 我 们 来 说 , 斯 皮尔 曼 相 关系 数 是 皮尔 逊 相关 系数 的 一 个 有 趣 的 变 体 。 该 相关 系数 并 非 基 
于 原始 的 偏好 值 ， 而 是 基于 偏好 值 的 相对 排名 来 计算 。 想 象 一 下 ,对 于 每 个 用 户 来 说 ,他 们 偏好 
值 最 低 的 物品 的 偏好 值 被 改 为 1。 偏 好 值 次 低 的 物品 偏好 值 被 改 为 2， 以 此 类 推 。 类似 于 你 对 电影 
进行 打分 ， 给 最 不 喜欢 的 电影 一 颗 星 ， 次 不 喜欢 的 电影 两 颗 星 ， 以 此 类 推 。 然 后 ,在 变换 后 的 偏 
好 值 上 计算 皮尔 逊 相关 系数 ， 这 就 是 斯 皮尔 曼 相关 系数 。 

这 个 过 程 丢掉 了 一 些 信息 。 尽 管 它 保留 了 偏好 值 最 本 质 的 东西 一 一 它们 的 顺序 , 但 它 最 终 也 
丢掉 了 用 户 对 不 同 物品 喜好 程度 的 具体 差异 。 很 难说 它 是 或 不 是 一 个 好 办 法 ; 它 介 于 保留 原始 偏 
好 值 和 将 它们 完全 丢弃 之 间 一 一 这 两 种 情况 我 们 都 已 经 讨论 过 了 。 

表 4-3 中 是 一 些 斯 皮尔 曼 相 关系 数 的 计算 结果 。 在 这 个 已 经 很 简单 的 数据 集 上 ， 它 本 身 的 简 
单 性 导致 了 一 些 很 极端 的 值 : 事实 上 ， 这 里 所 有 的 相关 系数 都 为 1 或 -1， 依 赖 于 该 用 户 与 用 户 1 
偏好 值 的 变化 趋势 是 否 一 致 。 与 皮尔 逊 相关 系数 一 样 ， 用 户 1 和 用 户 3 之 间 没 有 相似 度 值 。 


表 4-3 ”将 偏好 值 变 为 排名 ， 并 得 到 用 户 1 与 其 他 用 户 之 间 的 斯 皮尔 曼 相 关系 数 


物品 101 


物品 102 物品 103 与 用 户 1 的 相似 度 


用 户 1 3.0 2.0 1.0 1.0 
用 户 2 1.0 2.0 3.0 -1.0 
用 户 3 1.0 = £ — 
用 户 4 2.0 = 1.0 1.0 


3.0 


2.0 1.0 1.0 


该 方法 由 SpearmanCorrelationSimilarity 实 现 。 跟 前 面 一 样 ， 你 要 将 它 放 在 评估 代码 
中 作为 Usersimilarity 使 用 。 运 行程 序 之 后 ， 就 可 以 去 喝 杯 咖啡 休息 一 下 。 如 果 天 黑 了 就 上 床 
睡觉 。 它 不 会 很 快运 行 结束 的 。 这 个 实现 非常 慢 ， 因 为 它 需 要 做 一 些 烦 琐 的 工作 来 计算 并 存储 排 
序 结果 。 基 于 斯 皮尔 曼 相关 系数 的 相似 性 度量 计算 量 很 大 ， 因 此 学 术 价值 大 于 实用 价值 。 当 然 ， 
它 对 于 一 些小 规模 的 数据 集 可 能 很 有 效 。 

借 此 机 会 正好 介绍 一 下 Mahout 的 缓存 封装 机 制 。cachingUserSimilarity 是 
UserSimilaritvy 的 一 种 实现 , 它 封 装 了 另 一 个 Usersimilarity 的 实现 并 缓存 其 结果 。 也 就 是 
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说 它 利 用 男 一 个 实现 进行 计算 , 并 将 得 到 的 结果 进行 内 部 缓存 。 然 后 ， 当 需要 提供 一 个 已 经 计算 
过 的 用 户 间 相似 度 时 ， 它 就 可 以 直接 返回 ， 而 不 需要 该 实现 重新 进行 计算 。 你 可 以 用 这 个 办 法 为 
任何 相似 性 度量 的 实现 添加 缓存 功能 。 当 计算 的 代价 很 高 时 ( 例如 在 这 里 )， 引 入 这 种 机 制 是 值 
得 的 。 当 然 ， 缓存 也 有 代价 ， 它 会 消耗 内 存 。 

试 试 将 spearmanCorrelationSimilarity 替 换 为 下 面 的 实现 。 


代码 清单 4-5 ”为 Usersimilarity 实 现 引 入 缓存 机 制 


UserSimilarity similarity = new CachingUserSimilarity ( 
new SpearmanCorrelationSimilarity(model), model); 


建议 将 evaluate () 函数 的 trainingPercentage 从 0.95 升 到 0.99， 从 而 证 测试 数据 的 规模 
从 5% 减 为 1%。 将 最 后 一 个 参数 从 0.05 降 为 0.01， 从 而 将 评估 比例 从 5% 减 为 1% 也 不 失 为 一 个 好 办 
法 ?。 这 样 一 来 ， 评 估 过 程 可 以 在 大 约 几 十 分 钟 内 结束 。 

结果 可 能 在 0.80 左 右 。 同 样 ， 这 种 相似 性 度量 方法 的 优 劣 很 难 一 概 而 论 ， 但 在 这 个 特定 的 数 
据 集 上 ， 它 不 如 其 他 相似 性 度量 方法 有 效 。 


4.3.7 ”忽略 偏好 值 基于 谷 本 系数 计算 相似 度 


有 趣 的 是 , 还 存在 一 些 完全 抛 开 偏 好 值 的 Usersimilarity 实 现 。 它 们 不 管 一 个 用 户 对 一 个 
物品 的 偏好 值 是 高 还 是 低 ， 只 关心 用 户 是 否 表达 过 偏好 。 正 如 我 们 在 第 3 章 讨论 过 的 ， 忽 略 偏好 
值 并 不 会 有 太 大 影响 。 

TanimotoCoefficientsimilarity 就 是 这 样 一 个 实现 ， 它 基于 谷 本 系数 。 这 个 值 也 叫做 
Jaccard 系 数 。 它 是 由 两 个 用 户 共同 表达 过 偏好 的 物品 数目 除 以 至 少 一 个 用 户 表达 过 偏好 的 物品 数 
目 而 得 。 如 图 4-3 所 示 。 


图 4-3” 谷 本 系数 是 两 个 用 户 各 自 表达 过 偏好 的 两 个 物品 集合 的 交集 ， 即 重生 区 
域 ( 深 色 区 域 ) 的 大 小 ， 与 并 集 ( 深 色 和 浅 色 区 域 ) 大 小 的 比值 
换 句 话说 ， 它 是 两 个 偏好 物品 集合 的 交集 大 小 与 并 集 大 小 的 比值 。 它 有 如 下 性 质 : 当 两 个 用 
户 的 偏好 集合 完全 重合 时 , 结果 为 1.0。 当 他 们 没有 任何 共同 点 时 , 结果 为 0.0。 结果 永远 不 会 为 负 ， 


D 前 者 调节 各 个 用 户 偏好 值 中 用 来 训练 的 比例 ， 后 者 调节 用 于 评估 的 用 户 数量 。 一 一 译 者 注 
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但 也 没有 关系 。 用 一 些 简单 的 数学 变换 就 可 以 把 结果 变换 到 -1 到 1 之 间 : 相似 度 = 2 x 相似 度 -1。 
对 于 整个 框架 来 说 ， 这 不 会 有 太 大 影响 。 
表 4-4 列 出 了 用 户 1 与 其 他 用 户 之 间 的 一 些 基 于 谷 本 系数 的 相似 度 值 。 


#44 ”基于 谷 本 系数 计算 得 到 的 用 户 1 与 其 他 用 户 之 间 的 相似 度 值 。 注 意 偏好 值 
本 身 被 忽略 了 ， 因 为 计算 过 程 并 没有 用 到 它们 
物品 101 ”物品 102 ”物品 103 物品 104 ”物品 105 ”物品 106 ”物品 107 与 用 户 1 的 相似 度 
X X 1.0 
0.75 
x x 0.17 
0.4 
x x 0.5 


用 户 1 
用 户 2 
用 户 3 
用 户 4 
用 户 5 


x 
x x x x 
x 


注意 这 一 相似 性 度量 并 不 仅仅 取决 于 用 户 共同 表达 过 偏好 的 物品 , 它 同 时 也 需要 考虑 仅 有 一 
个 用 户 表达 过 偏好 的 物品 。 因 此 ， 跟 前 面 不 同 ， 所 有 的 7 个 物品 都 出 现在 计算 过 程 中 。 

当 且 仅 当 偏好 值 为 布尔 值 或 者 根本 没有 偏好 值 可 用 时 , 你 才 需 要 用 到 这 一 度量 方法 。 如 果 有 
偏好 值 ， 而 且 偏 好 值 中 除了 噪声 还 有 更 多 的 信息 , 或 许 你 也 会 使 用 这 一 方法 。 但 是 ， 此 时 使 用 那 
些 基 于 具体 偏好 值 的 度量 方法 往往 效果 会 更 好 。 在 GroupLens 数 据 集 上 ， 使 用 谷 本 系数 后 分 值 变 
差 了 一 些 ， 上 升 至 0.82。 


4.3.8 ”基于 对 数 似 然 比 更 好 地 计算 相似 度 


尽管 看 起 来 不 像 ， 但 基于 对 数 似 然 比 的 相似 度 ( Log-likelihood-based similarity ) 实际 上 类 似 
于 基于 谷 本 系数 的 相似 度 。 它 是 男 一 种 不 考虑 具体 偏好 值 的 度量 方法 。 计算 这 一 相似 度 所 需要 的 
数学 知识 已 经 超出 了 本 书 的 讲述 范围 。 与 谷 本 系数 类 似 , 它 也 基于 两 个 用 户 共 同 评估 过 的 物品 数 
H, 但 在 给 定 物品 总 数 和 每 个 用 户 评价 物品 数量 的 情况 下 ， 其 最 终结 果 衡 量 的 是 两 个 用 户 有 这 
么 多 共同 物品 的 “不 可 能 性 ”。 

考虑 两 个 电影 爱好 者 , 各自 都 看 了 一 些 电 影 ， 也 给 出 了 评分 , 但 仅仅 有 《星球 大 战 》 和 《 卡 
萨 布 兰 卡 》 这 两 部 是 其 共同 看 过 的 。 他 们 是 否 相似 呢 ? 如 果 他 们 各 自 都 看 了 几 百 部 电影 ， 这 一 点 
就 没有 多 大 意义 了 。 很 多 人 看 过 这 些 电 影 ， 如 果 这 两 人 都 看 过 很 多 电影 , 但 仅 有 这 两 部 是 都 看 过 
的 , 那 他 们 可 能 并 不 相似 。 反之, 如果 每 个 用 户 都 只 看 过 很 少 的 电影 , 这 两 部 却 都 是 他 们 看 过 的 ， 
则 可 能 暗示 他 们 在 电影 方面 爱好 相似 ; 此 时 重 倒 占 的 比重 很 大 。 

谷 本 系数 已 经 能 够 反映 这 一 思想 , 因为 它 考虑 了 两 者 交集 大 小 与 并 集 大 小 的 比值 。 对 数 似 然 
比 的 计算 则 略 有 不 同 。 它 试图 反映 两 个 用 户 由 于 机 缘 巧 合 发 生 重合 的 不 可 能 性 。 也 就 是 说 ,两 个 
不 相似 的 用 户 毫 无 疑问 会 共同 评价 一 些 电影 ,但 是 两 个 相似 用 户 之 间 的 重 炙 不 太 可 能 是 出 于 巧 
合 。 通 过 一 些 统计 检验 ,这 一 相似 性 度量 试图 判断 两 个 用 户口 味 不 相似 的 不 可 能 性 有 多 大 ; 不 可 


D 不 仅仅 是 针对 不 相似 用 户 的 衡量 。 一 一 译 者 注 
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能 性 越 大 ， 两 个 用 户 的 相似 度 越 高 。 最 终 的 相似 度 值 可 以 解释 为 发 生 重 秋 的 非 偶然 概率 。 

在 我 们 的 小 数据 集 上 计算 出 来 的 一 些 相似 度 值 如 表 4-5 所 示 。 正 如 你 所 见 , 在 这 种 度量 方式 下 ， 
用 户 1 与 其 自身 或 其 他 任何 有 共同 偏好 的 用 户 之 间 的 相似 度 都 不 等 于 1.0。 同 前 面 类 似 ， 要 使 用 基于 
对 数 似 然 比 的 相似 性 度量 ， 只 需 将 new LogLikelihoodsimilarity 插 入 到 代码 清单 4-3 中 。 


表 4-5 用户 1 与 其 他 用 户 之 间 的 相似 度 ， 基 于 对 数 似 然 比 相似 性 度量 


物品 102 ”物品 103 ”物品 104 ”物品 105 ”物品 106 ”物品 107 与 用 户 1 的 相似 度 


A 
用 户 1 x x x 0.90 
用 户 2 x x x x 0.84 
用 户 3 x x x x 0.55 
FAR4 x x x x 0.16 
x x 


0.55 


虽然 很 难 一 概 而 论 , 基于 对 数 似 然 比 的 相似 度 往往 优 于 基于 谷 本 系数 的 相似 度 。 从 某 种 意义 
上 说 , 它 是 一 个 更 智能 的 度量 标准 。 运行 评估 程序 就 可 以 看 到 , 至 少 对 于 这 个 数据 集 和 推荐 程序 ， 
相 比 于 mranimotocoefficientsimilarity， 它 会 将 性 能 改善 为 0.73。 


4.3.9 ”推测 偏好 值 


有 时 候 数 据 过 少 会 成 为 问题 。 例如, 在 某 些 情况 下 一 些 用 户 对 只 在 一 个 物品 上 重 冯 ,皮尔 进 
相关 系数 无 法 计算 任何 相似 度 。 皮 尔 逊 相关 系数 也 不 考虑 只 有 一 个 用 户 表达 过 偏好 的 物品 。 

如 果 在 所 有 缺失 的 数据 点 上 填充 一 个 默认 值 会 怎样 呢 ? 例如 , 通过 为 用 户 没 有 评价 过 的 物品 
推测 一 个 默认 偏好 值 ， 系 统 可 以 认为 每 个 用 户 都 评估 过 所 有 的 物品 。 可 以 通过 
PreferenceInferrer 接 口 引入 这 种 机 制 ， 目 前 可 用 AveragingPre ferenceInferrer 这 一 实 
现 ， 它 为 每 个 用 户 计算 其 已 评估 物品 的 平均 值 ， 并 以 此 作为 未 评估 物品 的 偏好 值 。 在 
UserSsimilarity 实 现 中 调用 setPreferenceInferrer() 方 法 可 以 开启 这 个 选项 。 

尽管 提供 了 这 一 机 制 , 但 实际 应 用 中 它 并 不 是 很 有 效 。 之 所 以 提 到 它 , 是 因为 关于 推荐 系统 
的 早期 研究 中 提 到 了 它 。 理 论 上 讲 ， 完 全 基于 已 有 信息 来 填补 缺失 信息 并 不 会 增加 任何 信息 量 ， 
相反 , 这 显然 会 严重 拖 慢 计算 速度 。 它 可 以 用 于 实验 , 但 在 真实 数据 集 上 您 怕 不 会 起 到 什么 作用 。 

你 现在 已 经 了 解 了 Mahout 中 所 有 关于 用 户 间 相似 性 度量 的 实现 。 掌 握 这 些 知 识 将 会 使 你 事 半 
功 倍 , 因为 Mahout 中 的 物品 间 相 似 性 度量 的 实现 与 此 非常 类 似 。 也 就 是 说 ,同样 的 计算 可 以 用 于 
定义 物品 之 间 的 相似 性 ， 而 不 仅仅 是 用 在 用 户 上 。 现 在 及 时 补充 这 些 知识 是 很 有 必要 的 ， 因为 相 
似 性 的 概念 同样 也 是 你 将 遇 到 的 男 一 类 Mahout 推 荐 程序 一 一 基于 物品 的 推荐 程序 一 一 的 基础 。 
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我 们 已 经 了 解 了 Mahout 中 基于 用 户 的 推荐 程序 ; 不 只 是 一 个 推荐 程序 , 而 是 建立 在 基于 用 户 
的 推荐 方法 上 的 许多 工具 ， 是 通过 搭配 多 种 多 样 的 组 件 来 实现 的 。 
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顺 其 自然 ， 下 面 我 们 将 要 讨论 基于 物品 的 推荐 程序 ( item-based recommender )。 由 于 前 面 讨 
论 过 的 很 多 组 件 (数据 模型 、 相 似 性 度量 的 实现 ) 也 适用 于 基于 物品 的 推荐 ， 因 此 这 一 节 会 简短 
此， 

基于 物品 的 推荐 是 以 物品 (而 不 是 用 户 ) 之 间 的 相似 度 为 基础 的 。 在 Mahout 中 , 这 意味 着 基 
于 ItemSimilarity 实 现 相 似 性 度量 ,而 非 基 于 Usersimilarity。 为 了 说 明 这 一 点 , 我 们 回顾 
音乐 商店 里 的 场景 , 那 两 个 人 还 在 努力 尝试 着 为 那个 男孩 儿 推荐 他 喜欢 的 专辑 。 想 象 一 下 ,他们 
现在 从 另 一 个 角度 来 推测 那个 男孩 儿 的 喜好 : 


成 年 人 : 我 要 为 一 个 男孩 儿 买 张 CD。 

Je 员 : 好 的 ， 他 喜欢 什么 音乐 或 乐队 呢 ? 

成 年 人 : 他 总 是 穿 一 件 Bowling In Hades 的 T 虱 ， 好像 还 有 这 个 乐队 所 有 的 专辑 。 你 
有 什么 要 推荐 的 吗 ? 

Æ it: 啊 ， 喜 欢 Bowling In Hades 的 人 大 都 喜欢 Rock Mobster 这 个 新 专辑 。 


这 个 方法 看 起 来 不 错 。 它 跟前 面 的 例子 也 是 有 区 别 的 。 唱 片 商店 的 店员 根据 男孩 儿 喜 欢 的 东 
西 ， 为 他 推荐 了 一 个 类 似 的 专辑 。 这 与 以 前 是 不 同 的 ， 以 前 的 问题 是 :“ 谁 与 这 个 男孩 儿 相 似 ? 
他 们 又 喜欢 什么 呢 ? ”现在 的 问题 是 :“ 什 么 东西 与 男孩 儿 喜 欢 的 东西 类 似 ? ” 

图 4-4 显 示 了 基于 用 户 和 基于 物品 的 推荐 程序 之 间 的 本 质 区 别 。 它 们 通过 不 同 的 途径 选择 要 
推荐 的 物品 : 分 别 是 通过 相似 的 用 户 和 相似 的 物品 。 


图 4-4 ”基于 用 户 和 基于 物品 的 推荐 之 间 的 区 别 : 基于 用 户 的 推荐 (长 虚线 ) 
寻找 相似 的 用 户 ， 并 了 解 他 们 喜欢 什么 ; 基于 物品 的 推荐 ( 短 虚线 ) 
了 解 用 户 的 喜好 ， 并 寻找 相似 的 物品 


4.4.1 算法 


了 解 基于 用 户 的 推荐 程序 之 后 ,你 会 觉得 这 个 算法 很 熟悉 。 这 也 是 它 在 Mahout 中 的 实现 方式 。 


for (用 户 也 尚未 表达 偏好 的 ) 每 个 物品 
for (用 户 u 表 达 偏 好 的 ) 每 个 物品 了 
计算 和 和 j 之 间 的 相似 度 s 
按 权 重 为 8 将 tu 对 j 的 偏好 并 入 平均 值 
return 值 最 高 的 物品 ( 按 加 权 平 均 排 序 ) 


第 三 行 显示 了 它 基 于 物品 之 间 的 相似 度 , 而 非 像 前 面 那 样 基 于 用 户 间 的 相似 度 。 两 种 算法 比 
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较 相 似 , 但 也 不 完全 是 彼此 相同 的 。 它 们 有 一 些 显 著 的 区 别 。 例如， 基于 物品 的 推荐 程序 运行 时 
间 随 着 物品 的 个 数 增长 ， 而 基于 用 户 的 推荐 程序 运行 时 间 随 着 用 户 数 增长 。 

这 也 成 为 使 用 基于 物品 的 推荐 程序 的 一 个 理由 : 如 果 物 品 数 比 用 户 数 少 很 多 的 话 , 基于 物品 
的 推荐 程序 会 带 来 显著 的 性 能 提升 。 

此 外 , 物品 要 比 用 户 稳定 一 些 。 像 DVD 这 样 的 物品 , 我 们 可 以 合理 的 假设 随 着 时 间 的 不 断 推 
移 , 搜集 到 的 数据 越 来 越 多 ,对 物品 之 间 相 似 度 的 估计 值 会 趋 于 收敛 。 它 们 没有 理由 剧烈 或 频繁 
地 发 生变 化 。 类 似 的 现象 也 许 对 用 户 也 是 如 此 , 但 随 着 时 间 推 黎 ， 用 户 会 有 一 些 新 的 认识 ,接触 
到 新 的 信息 ,因此 用 户 的 喜好 也 会 随 之 发 生 改变 。 结合 前 面 的 例子 来 看 ,Bowling In Hades 和 Rock 
Mobster 这 两 个 专辑 一 年 后 的 相似 度 可 能 与 今天 差不多 。 但 前 面 提 到 的 同一 群 粉 丝 一 年 后 的 品味 
仍然 相似 的 可 能 性 就 很 小 了 ， 因 而 他 们 之 间 的 相似 度 也 会 发 生 改 变 。 

如 果 物 品 之 间 有 更 稳定 的 相似 度 , 那么 它们 就 更 适合 于 预先 计算 。 预 先 计算 相似 度 有 一 定 的 
工作 量 , 但 它 大 大 提升 了 运行 时 的 推荐 效率 。 在 运行 时 需要 快速 提供 推荐 结果 的 场合 , 这 个 特性 
是 很 有 意义 的 ， 例 如 一 个 新 闻 网 站 ， 它 必须 及 时 地 将 每 个 新 闻 视 图 推荐 出 去 。 

在 Mahout 中 , GenericItemSimilari ty 类 可 以 用 来 预先 计算 并 存储 工 temSimi larity 的 结 
果 。 它 可 以 用 于 你 所 见 过 的 任何 实现 中 ， 只 要 你 愿意 ， 就 可 以 把 它 加 到 之 后 的 代码 片段 中 。 


4.4.2 ”探究 基于 物品 的 推荐 程序 
现在 我 们 将 一 个 简单 的 基于 物品 的 推荐 程序 租 入 到 评估 框架 中 , 代码 如 下 。 此 时 的 程序 使 用 


GenericItemBasedRecommender 来 取代 GenericUserBasedRecommender, 并 且 它 的 依赖 项 


更 为 简洁 。 
代码 清单 4-6 一 个 基础 的 基于 物品 的 推荐 程序 的 核心 部 分 


public Recommender buildRecommender (DataModel model) 
throws TasteException { 
ItemSimilarity similarity = new PearsonCorrelationSimilarity (model) ; 
return new GenericItemBasedRecommender (model, similarity); 


} 

PearsonCorrelationSsimilarity 在 此 处 仍然 是 有 效 的 ， 因 为 它 也 实现 了 一 个 与 
UserSimilarity 接 口 完 全 类 似 的 Ttemsimilarity 接 口 。 这 里 相似 性 的 定义 与 前 面相 同 , 都 是 
基于 皮尔 逊 相关 系数 的 ， 只 不 过 现在 是 在 物品 而 不 是 用 户 之 间 度 量 相似 性 。 也 就 是 说 ,， 它 比较 的 
是 由 许多 用 户 针 对 一 个 物品 所 给 出 的 偏好 值 序列 ， 而 不 是 一 个 用 户 针 对 许多 物品 的 偏好 值 序列 。 

GenericItemBasedRecommender 比较 简单 ， 它 仅仅 需要 一 个 DataModel 和 一 个 
ItemSimilarity 一 一 没有 ItemNeighborhood。 你 可 能 奇怪 它 为 什么 跟 GenericUserBased 
Recommender 不 对 称 。 回 想 一 下 ， 基 于 物品 的 推荐 过 程 并 非 从 零 开始 : 已 经 有 一 些 用 户 表达 过 
偏好 的 物品 。 这 与 基于 用 户 的 推荐 程序 在 第 一 步 确定 的 相似 用 户 邻 域 是 类 似 的 。 计算 各 个 用 户 偏 
好 物品 的 邻 域 对 该 算法 后 面 的 步骤 没有 任何 意义 。 

建议 你 尝试 不 同 的 相似 性 度量 , 就 像 之 前 针对 基于 用 户 的 推荐 程序 所 做 的 尝 斌 一样。 并非 所 
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有 的 Usersimilarity 实 现 都 有 相应 的 Itemsimilarity 实 现 。 现 在 , 你 已 经 掌握 了 使 用 不 同 相 
似 性 度量 标准 时 ， 在 GroupLens 数 据 集 上 评估 基于 物品 的 推荐 程序 准确 性 的 方法 。 为 方便 起 见 ， 
结果 重新 计算 后 列 于 表 4-6 中 。 


表 4-6 ”使 用 不 同 IrtemSsimilarity 度 量 标准 的 评估 结果 


实现 相 似 度 
PearsonCorrelationSimilarity 0.75 
PearsonCorrelationSimilarity 十 权重 0.75 
EuclideanDistanceSimilarity 0.76 
EuclideanDistanceSimilarity + WMH 0.78 
TanimotoCoefficientSimilarity 0.77 
LogLikelihoodSimilarity 0.77 


你 可 能 会 注意 到 ,这 种 推荐 程序 的 运行 速度 要 比 以 往 快 得 多 。 这 并 不 奇怪 , 假设 数据 集中 有 
70 000 个 用 户 和 10 000 个 物品 。 在 物品 数 小 于 用 户 数 的 情况 下 ， 基 于 物品 的 推荐 程序 通常 会 运行 
得 更 快 。 你 可 能 希望 将 用 于 评估 的 数据 比例 提升 至 20% 左 右 ( 将 0.2 作 为 最 后 一 个 参数 传 给 
evaluate() )。 这 样 会 得 到 一 个 更 可 靠 的 评估 结果 。 可 以 看 到 ， 对 于 这 个 数据 集 ， 这 些 实现 所 
得 到 的 结果 之 间 并 没有 明显 的 区 别 。 


4.5 Slope-one 推荐 算法 


你 喜欢 《 情 泉 的 黎明 》( Carlitos Way ) 这 部 电影 吗 ? 很 多 喜欢 这 部 电影 的 人 也 会 喜欢 Al 
Pacino 的 男 一 部 电影 《 疤 面 笋 星 》( Scarface )。 但 人 们 往往 更 喜欢 后 者 。 我 们 可 以 想象 如 果 一 个 
人 给 《 情 泉 的 黎明 》 四 颗 星 ,那么 他 可 能 会 给 《 疤 面 笋 星 》 五 颗 星 。 所 以 如 果 你 给 《 情 泉 的 黎明 》 
三 颗 星 ， 我 们 猜 你 可 能 会 给 《 疤 面 笋 星 》 四 颗 星 一 一 比 《 情 泉 的 黎明 》 多 一 颗 星 。 

如 果 你 同意 上 面 的 推理 ， 你 就 会 喜欢 slope-one 推 荐 算法 ( http://en.wikipedia.org/wiki/ 
Slope_One )。 它 基于 新 物品 与 用 户 评估 过 的 物品 之 间 的 平均 偏好 值 差 异 来 预测 用 户 对 新 物品 的 偏 
好 值 。 

举 个 例子 ， 我 们 假设 人 们 给 《 疤 面 化 星 》 的 平均 分 要 比 《 情 泉 的 黎明 》 高 出 1.0 分 。 再 假设 ， 
FHAR, AWI CEMRE Y RN LA Y (The Godfather ) 相同 。 现 在 ， 我 们 有 一 个 用 
户 给 《 情 泉 的 黎明 》 打 了 2.0 分 ， 给 《教父 》 打 了 4.0 分 。 怎 样 合理 的 估计 他 对 《 疤 面 敏 星 》 的 评 
价 呢 ? 

根据 《 情 泉 的 黎明 》 较为 理想 的 估计 应 该 是 2.0+1.0=3.0。 根据 《教父 》 又 应 该 是 4.0+0.0=4.0。 
二 者 的 均值 可 能 是 一 个 更 好 的 估计 : 3.5。 这 就 是 slope-one 推 荐 方法 的 基石 。 


4.5.1 算法 
我 们 认为 两 个 物品 的 偏好 值 之 间 存 在 着 某 种 线性 关系 , 所 以 可 以 通过 某 个 线性 函数 , 例如 Y= 
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mX+b， 由 物品 X 的 偏好 值 估计 出 物品 7 的 偏好 值 。Slope-one 推 荐 算法 正 是 基于 这 一 假设 来 运作 ， 
并 因此 而 得 名 。Slope-one 推 荐 程序 做 了 进一步 的 简化 假设 m=1， 即 斜率 为 1。 现 在 我 们 只 需要 确 
定 = 了 -和 ， 即 物品 两 两 之 间 偏 好 值 的 (平均 ) 差异 。 
这 意味 着 算法 需要 有 一 个 重要 的 预 处 理 步骤 ， 即 完成 所 有 物品 对 之 间 偏 好 什 差 异 的 计算 : 
Eor 每 个 物品 计 
for 每 个 其 他 物品 j 
fozr 对 宇和 3 了 均 有 偏好 的 每 个 用 户 忌 
将 物品 对 (ii 与 了 ) 间 的 偏好 值 差异 加 入 己 的 偏好 
在 此 基础 上 ， 可 得 最 终 的 推荐 算法 如 下 : 
for 用 户 Uu 未 表达 过 偏好 的 每 个 物品 
for 用 户 U 表 达 过 偏好 的 每 个 物品 j 
找到 j 与 了 之 间 的 平均 偏好 值 差异 
添加 该 差异 到 u 对 了 的 偏好 值 
添加 其 至 平均 值 
Return 值 最 高 的 物品 ( 按 平 均 差 异 排序 ) 


我 们 在 本 书 前 面 例子 中 用 到 的 小 数据 集 上 求 平均 差异 值 ， 并 将 其 列 在 表 4-7 中 。 
表 4-7 ”所 有 物品 对 的 平均 偏好 值 差 异 。 对 角 线 上 的 单元 格 值 为 0.0。 下 半 部 分 单元 格 的 值 为 其 关 


于 对 角 线 对 称 的 单元 格 值 的 相反 数 ， 所 以 这 一 部 分 也 没有 在 表 中 列 出 。 某 些 差异 值 不 存 
在 ， 例 如 102~107， 因 为 没有 用 户 同时 对 物品 102 和 物品 107 给 出 偏好 值 


物品 101 物品 102 物品 103 物品 104 物品 105 物品 106 


物品 107 


物品 101 -0.833 0.875 0.25 0.75 -0.5 2.5 
物品 102 0.333 0.25 0.5 1.0 == 
物品 103 0.167 1.5 1.5 = 
物品 104 0.0 -0.25 1.0 
物品 105 0.5 0.5 


物品 106 
物品 107 


Slope-one 的 吸引 力 在 于 其 算法 的 在 线 部 分 执行 很 快 。 与 基于 物品 的 推荐 程序 类 似 , 它 的 性 能 
不 受 数据 模型 中 用 户 数目 的 影响 。 它 仅仅 依赖 于 物品 之 间 偏 好 值 的 平均 差异 ,而 这 些 差 异 值 可 以 
预先 计算 好 。 另 外 , 它 的 底层 数据 结构 更 新 的 效率 很 高 : 当 一 个 偏好 值 发 生 了 改变 ， 只 需要 更 新 
相关 的 差异 值 。 在 偏好 值 变化 频繁 的 场合 ， 这 是 一 个 优点 。 

注意 ， 存 储 所 有 物品 对 之 间 的 偏好 值 差 异 所 需要 的 内 存 随 物品 数 的 平方 增长 。2 售 的 物品 数 
意味 着 4 倍 的 内 存 用 量 ! 


4.5.2 ”Slope-one 实 践 
使 用 Slope-one 推 荐 程序 很 容易 。 它 不 再 必须 使 用 相似 性 度量 标准 这 个 参数 : 


new SlopeOneRecommender (model) 
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再 一 次 在 GroupLens 的 一 千 万 项 评价 的 数据 集 上 运行 我 们 的 标准 评估 程序 , 结果 会 在 0.65 左 右 。 
这 已 经 是 最 好 的 了 。 实际 上 , 简单 的 Slope-one 方 法 在 很 多 情况 下 都 有 着 不 错 的 表现 。 与 我 们 目前 为 
止 接触 过 的 其 他 推荐 方法 不 同 ， 它 不 再 需要 用 到 相似 性 度量 标准 。 参 数 调试 的 工作 量 大 大 减少 。 

与 皮尔 逊 相关 系数 类 似 ， 简 单 形式 的 slope-one 算 法 也 存在 一 个 弱点 : 物品 之 间 的 差异 被 赋予 
了 相同 的 权重 ， 而 没有 考虑 这 些 差异 的 可 靠 性 一 一 计算 这 些 差异 时 使 用 了 多 少数 据 。 我 们 假设 仅 
有 一 个 用 户 同时 对 《 情 泉 的 黎明 》 和 《恋恋 笔记 本 》( The Notebook ) 这 两 部 电影 给 出 了 评价 。 这 
是 可 能 的 ， 因为 这 两 部 电影 风格 迎 异 。 这 两 部 电影 之 间 的 差异 很 容易 计算 , 但 这 是 不 是 跟 基 于 数 
千 名 用 户 计算 出 来 的 《 情 泉 的 黎明 》 和 《教父 》 之 间 的 差异 一 样 有 用 呢 ? 看 起 来 不 是 。 后 者 可 能 
更 可 靠 ， 因 为 它 是 在 更 多 用 户 基 础 上 计算 的 平均 值 。 

与 前 面 类 似 , .引入 某 种 形式 的 权重 有 助 于 改善 这 些 推荐 算法 的 性 能 。slopeoneRecommender 
提供 了 两 种 权重 : 基于 数量 的 和 基于 标准 差 的 权重 。 回 忆 一 下 Slope-one 估 计 偏 好 值 的 过 程 ， 它 把 用 
户 所 有 已 评估 物品 的 偏好 值 加 上 一 个 差异 ， 然 后 将 这 些 结果 取 平 均 作为 最 后 的 估计 值 。 基 于 数量 的 
加 权 会 在 那些 基于 更 多 数据 算出 的 差异 值 上 加 上 更 大 的 权重 。 平 均值 变 为 加 权 平 均值 ， 其 权重 就 是 
差异 数量 一 一 计算 某 一 差异 时 用 到 的 用 户 数 量 。 

类 似 地 , 基于 标准 差 的 加 权 通 过 偏好 值 差 异 的 标准 差 来 计算 权重 。 较 低 的 标准 差 有 较 高 的 权 
重 。 如 果 两 部 电影 偏好 值 的 差异 对 于 很 多 用 户 都 是 一 致 的 , 那么 它 可 能 更 可 靠 ， 因 而 会 得 到 更 高 
的 权重 。 如 果 它 在 不 同 用 户 之 间 差 异 很 大 ， 那 它 就 不 那么 重要 了 。 

这 些 变 种 效果 都 很 不 错 ， 所 以 它们 默认 是 被 开启 的 。 运行 前 面 的 评估 程序 时 , 你 已 经 用 过 这 
种 方法 了 。 这 里 ,我 们 关 掉 它们 再 看 看 效果 。 


代码 清单 4-7 选用 不 加 权 的 Ss1 opeOneRe commender _ 


DiffStorage diffStorage = new MemoryDiffStorage ( 
model, Weighting.UNWEIGHTED, Long.MAX_VALUE) ) ; 

return new SlopeOneRecommender ( 

model, 

Weighting.UNWEIGHTED, 

Weighting.UNWEIGHTED, 

diffStorage) ; 


结果 是 0.67 一 一 在 这 个 数据 集 上 只 差 了 一 点 点 。 


4.5.3 Diffstorage 和 内 存 考 虑 


slope-one 是 有 代价 的 : 内 存 消 耗 。 事 实 上 ， 如 果 你 用 10% 的 数据 (大概 100 000 个 评价 ) 
来 进行 评估 ，1 GB 的 堆 空间 都 不 够 用 。 差 异 值 使 用 很 频繁 ,而 且 它 们 的 计算 代价 很 高 ， 因 此 
需要 预先 计算 并 保存 。 但 是 将 它们 全 都 保存 在 内 存 中 代价 是 很 高 的 ， 有 必要 把 这 些 差异 值 存 
到 别 的 地 方 。 

幸运 的 是 ， 我 们 有 一 些 像 MysQeLJDBCDiffstorage 这 样 的 实现 可 以 满足 这 一 需求 ， 它 们 允 
许 预先 计算 差异 值 并 在 数据 库 中 更 新 它们 。 它 们 需要 和 JDBC 支 持 的 DataModel 实 现 ( 比如 
MySQLJDBCDataModel ) 结合 起 来 使 用 ， 示 例如 下 。 
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代码 清单 4-8 创建 一 个 JDBC 支 持 的 DiffStorage 


AbstractJDBCDataModel model = new MySQLJDBCDataModel () ; 
DiffStorage diffStorage = new MySQLUDBCDiffStorage (model); 
Recommender recommender = new SlopeOneRecommender ( 

model, Weighting.WEIGHTED, Weighting.WEIGHTED, diffStorage) ; 


在 MySQLJDBCDataModel 中 ，MySQLJDBCDiffStorage 使 用 的 表 名 和 列 名 可 以 通过 构造 器 
参数 ( constructor parameter ) 来 定制 。 


4.5.4 ”离线 计算 量 的 分 配 


预先 计算 物品 之 间 的 差异 值 是 一 个 很 重要 的 工作 。 你 首先 遇 到 的 问题 可 能 是 无 法 满足 生成 大 
量 数据 所 带 来 的 内 存 需 求 , 随 之 而 来 的 就 会 是 计算 这 些 差异 值 所 耗费 的 时 间 , 你 可 能 会 考虑 是 否 
有 办 法 通过 分 布 式 计算 提高 速度 。 在 运行 时 ， 如 果 有 新 的 信息 到 来 ， 差 异 值 很 容易 更 新 ， 因 此 预 
先 的 离线 计算 相对 不 是 很 频繁 ， 放 在 这 种 ( 分布 式 ) 模式 下 是 可 行 的 。 

Mahonut 支 持 通过 Hadoop 分 布 式 计算 差异 值 。 第 6 章 会 介绍 Mahout 支 持 的 所 有 Hadoop 相 关 的 推 
荐 算法 ， 从 而 更 深入 地 探索 这 一 过 程 。 
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Mahout 也 包含 一 些 其 他 推荐 方法 的 实现 。 本 节 简 要 介绍 了 三 个 比较 新 的 实现 , 它们 可 能 还 在 
不 断 的 改进 之 中 , 也 有 些 是 最 近 的 一 些 试验 性 质 的 实现 。 这 些 思路 都 可 能 有 实用 价值 或 值得 进 一 
步 改进 。 


4.6.1 基于 奇异 值 分 解 的 推荐 算法 


这 里 面 最 有 意思 的 实现 莫 过 于 基于 SVD (Singular Value Decomposition ， 奇 异 值 分 解 ) 的 
SVDRecommender 了 。 这 是 从 线性 代数 引入 到 机 器 学 习 中 的 一 项 重要 技术 。 完 全 理解 它 需 要 一 些 
高 阶 的 矩阵 代数 知识 , 并 要 求 对 和 矩阵 分 解 有 比较 深入 的 理解 , 但 对 于 SVD 在 推荐 系统 中 的 应 用 来 
说 ， 这 些 不 是 必要 的 。 

为 了 对 SVD 在 推荐 系统 中 的 作用 有 一 个 直观 的 理解 , 我 们 假设 你 询问 一 个 朋友 她 喜欢 什么 类 
型 的 音乐 ， 然 后 她 列 出 了 如 下 的 艺术 家 : 


= Brahms = Louis Armstrong 
= Chopin = Schumann 

= Miles Davis = John Coltrane 

= Tchaikovsky = Charlie Parker 


她 可 能 也 总 结 了 一 下 , RN ACB TAR ABE. 这 种 表述 传达 的 消息 就 不 那么 精确 
了 ， 但 也 不 是 太 不 精确 。 不 管 基于 哪 种 表述 ， 你 都 可 能 ( 正确 地 ) 推断 出 ， 相 对 于 古典 摇滚 乐团 
Deep Purple， 她 可 能 更 喜欢 贝多 芬 。 
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当然 ,推荐 引擎 处 理 的 是 具体 的 数据 点 ， 而 不 是 笼统 的 概念 。 其 输入 是 用 户 对 很 多 特定 物 
品 的 偏好 值 一 一 可 能 是 如 前 面 所 述 的 艺术 家 列表 ， 而 不 是 后 来 的 概要 描述 。 考 虑 到 性 能 ， 处 理 
更 小 的 数据 集 可 能 是 一 个 不 错 的 选择 。 例 如 ， 如 果 iTunes 的 Genius 基 于 数 百 万 个 流派 ， 而 不 是 
基于 数 十 亿 首 独立 的 歌曲 评分 来 进行 推荐 ， 就 能 运行 得 更 快 ; 而 且 ， 就 音乐 推荐 而 言 ， 效 果 并 
不 会 差 太 多 。 

RE, SVD 就 能 起 到 上 述 的 提炼 作用 。 它 从 用 户 对 各 个 物品 的 偏好 值 中 提炼 出 数量 较 少 但 更 
具 一 般 性 的 特征 ( 例如 流派 )。 这 可 能 是 一 个 小 得 多 的 数据 集 。 

尽管 这 一 过 程 丢掉 了 一 些 信息 , 某 些 时 候 却 能 改善 推荐 结果 。 这 一 过 程 有 效 地 平滑 了 输入 数 
据 。 例 如 , 假设 有 两 个 汽车 发 烧 友 , 一 个 喜欢 克 尔 维特 ( Corvettes ), 另 一 个 喜欢 科 迈 罗 ( Camaros ), 
他 们 都 想得到 对 汽车 的 推荐 。 这 两 个 发 烧 友 品味 比较 接近 : 他 们 都 喜欢 雪佛兰 跑车 。 但 在 针对 此 
类 问题 的 典型 数据 模型 中 ,这 两 辆 车 是 不 同 的 物品 。 如 果 偏 好 值 上 没有 任何 重 全 的话， 这 两 个 用 
户 可 能 被 认为 是 不 相关 的 。 然 而 , 基于 SVD 的 推荐 方法 却 可 能 找到 这 种 相似 性 。SVD 的 输出 可 能 
包含 一 些 对 应 于 雪佛兰 或 跑车 这 类 概念 的 特征 , 通过 这 些 特征 就 可 以 把 这 两 个 用 户 联系 起 来 。 根 
据 特征 的 重 和 到 就 可 以 计算 出 某 种 相似 度 。 

使 用 svpRecommender 很 简单 ， 代 码 如 下 : 

new SVDRecommender (model, new ALSWRFactorizer(model, 10, 0.05, 10)) 
SVDRecommender 使 用 了 一 个 Factorizer 来 完成 这 项 工作 ; 首次 使 用 可 以 试 试 上 面 的 
ALSWRFactorizer。 这 里 我 们 不 展开 讨论 Factorizer 的 选择 。 

第 一 个 数值 参数 是 SVD 最 终 要 生成 的 特征 数目 。 这 里 没有 标准 答案 ; 它 可 以 是 你 从 某 人 音乐 
品味 中 归结 的 流派 个 数 ， 例 如 本 节 中 的 第 一 个 例子 。 第 二 个 参数 是 \， 它 控制 着 一 个 叫 正则 化 的 
分 解 器 ( factorizer ) 特征 。 最 后 一 个 参数 是 需要 执行 的 训练 步骤 数 。 你 可 以 认为 它 控制 了 花 在 归 
纳 上 的 时 间 ， 而 较 大 的 值 意味 着 更 和 久 的 训练 时 间 。 

这 个 方法 可 以 得 到 不 错 的 结果 ( 在 GroupLens 数 据 集 上 是 0.69 )。 目 前 ， 这 一 实现 的 主要 问题 
是 需要 在 内 存 中 完成 计算 。 整 个 数据 集 都 需要 放 在 内 存 中 ,如 果 不 满足 这 个 需求 ,， 却 恰恰 使 该 技 
术 有 了 用 武之 地 ， 因 为 它 可 以 在 不 显著 降低 输出 质量 的 情况 下 缩减 输入 规模 。 以 后 ,这 个 算法 会 
基于 Hadoop 重 新 实现 ,使 得 SVD 可 以 将 庞大 的 计算 分 配 到 多 台 机 器 上 ， 但 这 在 当前 的 Mahout 中 
尚 不 可 用 。 


46.2 ”基于 线性 插值 物品 的 推荐 算法 


线性 插值 不 同 于 以 往 的 基于 物品 的 推荐 方法 ， 它 在 Mahout 中 的 实现 是 KnnItemBased- 
Recommender。Knn 是 k nearest neighbors 的 简称 ， 也 用 于 NearestNUserNeighborhood 中 。 正 如 你 
之 前 在 图 4-1 中 所 见 到 的 ，UserNeighborhood 的 实现 选择 指定 个 数 的 最 相似 用 户 作为 近似 用 户 邻 
域 。 这 里 的 线性 插值 算法 也 使 用 了 用 户 邻 域 的 概念 ， 但 采用 了 男 一 种 方式 。 

KnnItemBasedRecommender 仍 然 通 过 用 户 已 评估 过 的 物品 的 加 权 平 均 来 估计 偏好 值 , 但 权 
重 不 再 是 相似 度 , 而 是 用 一 些 线性 代数 技术 计算 出 的 所 有 物品 对 之 间 的 最 优 权重 集合 一 一 这 就 是 


46 最 新 以 及 试验 性 质 的 推荐 算法 55 


用 到 线性 插值 的 地 方 。 自 然 ， 此 时 就 可 以 通过 一 些 数学 技巧 对 权重 进行 优化 。 

在 现实 中 ,在 所 有 物品 对 上 都 做 这 个 计算 的 代价 是 很 高 的 ,所 以 我 们 预先 计算 出 与 目标 物品 ( 需 
要 估计 偏好 值 的 物品 ) 最 相似 的 物品 的 邻 域 。 即 选 定 n 个 最 接近 的 邻 点 , 就 像 NearestNUserNeigh- 
borhood 所 做 的 那样 。 你 可 以 尝试 如 下 代码 清单 中 的 knnItemBasedRecommender。 


代码 清单 4-9 ”部署 KnnItemBasedRecommendez 


ItemSimilarity similarity = new LogLikelihoodSimilarity (model); 
Optimizer optimizer = new NonNegativeQuadraticOptimizer(); 
return new KnnitemBasedRecommender (model, similarity, optimizer, 10); 


这 段 代码 使 用 对 数 似 然 相似 性 度量 标准 计算 出 10 个 最 近邻 物品 。 然后 , 它 将 会 使 用 二 次 规划 
( quadratic programming ) 技术 来 求解 一 一 计算 线性 插值 的 基本 方法 。 这 一 计算 的 细节 不 在 本 书 的 
讨论 范围 之 内 。 

这 一 实现 是 很 有 用 的 , 但 其 当前 版 本 即便 在 中 等 规模 的 数据 集 上 运行 也 比较 缓慢 。 可 以 认为 
它 适 用 于 小 数据 集 ， 或 者 适用 于 学 习 和 扩展 。 在 GroupLens 数 据 集 上 ， 其 评估 结果 为 0.76。 


46.3 ”基于 聚 类 的 推荐 算法 


基于 聚 类 的 推荐 被 认为 是 基于 用 户 推荐 程序 的 最 好 变种 。 它 将 物品 推荐 给 相似 用 户 复 ， 而 不 
是 具体 用 户 。 它 需要 一 个 将 所 有 用 户 划 分 到 不 同 簇 的 预 处 理 过 程 。 然 后 ， 它 为 每 个 簇 提 供 推荐 ， 
这 样 ， 推 荐 的 物品 就 会 被 尽 可 能 多 的 用 户 接 受 。 

这 种 方法 的 好 处 在 于 运行 时 的 推荐 很 快 , 因为 几乎 一 切 都 预先 计算 好 了 。 或 许 这 种 方式 给 出 
的 推荐 不 够 个 性 化 ,因为 推荐 是 为 一 个 群 组 而 不 是 个 人 提供 的 。 对 于 几乎 没有 历史 偏好 数据 的 新 
用 户 而 言 , 用 这 种 方法 提供 推荐 可 能 会 更 有 效 。 只 要 用 户 可 以 合理 归 人 一 个 相关 的 簇 ， 推 荐 结果 
就 会 随 着 对 用 户 的 不 断 了 解 而 越 来 越 好 。 

该 算法 得 名 于 它 循 环 地 将 最 相似 的 艇 拼接 成 更 大 的 簇 , 而 这 潜在 地 将 用 户 组 织 成 某 种 层次 结 
构 ， 或 者 说 树 形 结构 ， 如 图 4-5 所 示 。 
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图 4-5 “ 聚 类 示意 图 。 用 户 1 和 用 户 5 首 先 被 聚集 到 一 起 ， 还 有 2 和 3 ， 因 为 他 们 是 最 相近 的 。 
然后 ，4 被 并 入 1 和 5 的 簇 中 从 而 得 到 一 个 更 大 的 徐 ， 朝 着 树 形 结构 又 推进 了 一 步 


遗憾 的 是 , 聚 类 会 花费 很 长 的 时 间 ， 运行 如 下 代码 清单 中 的 代码 时 你 就 会 意识 到 这 一 点 , 它 
引入 了 TreeClusteringRecommender 来 实现 这 一 思想 。 
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代码 清单 4-10 ”创建 一 个 基于 育 类 的 推荐 程序 、 
UserSimilarity similarity = new LogLikelihoodsimilarity (model); 
ClusterSimilarity clusterSimilarity = 
new FarthestNeighborClusterSimilarity(similarity) ; 
return new TreeClusteringRecommender (model, clusterSimilarity, 10); 


用 户 间 的 相似 性 通常 由 Usersimilarity 的 实现 来 定义 。 用 户 簇 之 间 的 相似 性 则 由 
clusterSimilarity 的 实现 来 定义 。 目 前 ， 有 两 种 可 用 的 实现 : 其 中 一 个 用 分 别 取 自 两 个 簇 的 
两 个 最 相似 用 户 之 间 的 相似 度 作 为 聚 类 相似 度 ; 男 一 个 则 用 分 别 取 自 两 个 簇 的 两 个 最 不 相似 用 户 
之 间 的 相似 度 作 为 聚 类 相似 度 。 

两 种 方式 都 是 合理 的 , 但 也 都 会 遇 到 同样 的 问题 , 即 一 个 簇 边界 上 的 某 个 离 群 点 会 破坏 簇 的 
相似 性 。 最 相似 用 户 规则 对 应 的 实现 为 NearestNeighborClusterSimilarity， 两 个 成 员 之 
间 平 均 距 离 很 远 的 簇 , 可 能 因为 边界 接近 而 被 它 认 为 是 相近 的 。 最 不 相似 用 户 规则 对 应 的 实现 为 
FarthestNeighborClusterSimilarity( 见 代码 清单 4-10 ), 它 则 可 能 因为 存在 两 个 相隔 很 远 
的 离 群 点 ， 而 认为 两 个 实际 上 非常 接近 的 簇 距离 很 大 。 

尽管 当前 Mahout 中 没有 实现 , 但 还 有 第 三 种 可 行 的 方法 ， 即 基于 两 个 篮 中 心 (或 均值 ) 的 距 
离 定 义 复 的 相似 性 。 


4.7 对比 其 他 推荐 算法 


本 书 前 面 提 到 过 , 基于 内 容 的 推荐 是 一 种 广泛 并 经 常 被 提 及 的 推荐 方法 , 它 考虑 了 物品 的 上 
下 文 或 属性 。 基 于 这 个 原因 , 它 类 似 但 又 不 同 于 协同 过 滤 方 法 , 后 者 仅仅 基于 用 户 与 物品 之 间 的 
关联 , 并 将 物品 看 成 是 没有 属性 的 黑 盒子 。 尽 管 Mahout 基 本 上 不 实现 基于 内 容 的 方法 , 但 它 提供 
了 一 些 在 推荐 中 使 用 物品 属性 的 可 能 性 。 


4.7.1 为 Mahout 引 入 基于 内 容 的 技术 


举 个 例子 , 假设 有 一 个 在 线 书 商 转 积 了 一 些 书 的 多 个 版 本 。 这 个 书 商 可 能 需要 为 其 顾客 推 
荐 图 书 。 当 然 , 这 里 的 物品 就 是 书 , 我 们 很 自然 会 用 ISBN ( 一 个 唯一 的 产品 标识 ) 来 代表 一 本 
书 。 但 是 对 于 流行 的 大 众 化 图 书 , 例如 《 简 . 爱 》， 可 能 有 不 同 的 出 版 商 出 版 文字 相同 的 不 同 
印刷 品 , 这 些 印 刷 品 的 ISBN 是 不 同 的。 看 起 来 基于 它们 的 文字 来 推荐 书籍 , 要 比 基 于 不 同 的 版 
本 更 自然 一 些 一 一 你 应 该 不 太 在 意 自 己 读 的 是 “ 简 : 爱 兴 ， 还 是 “ACME 在 1993 年 出 版 的 平 
装 《 简 : 爱 》 吧 ? 可 能 将 书本 身 ( 它 的 文字 ) 看 做 一 个 物品 ， 并 一 视 同仁 地 推荐 这 本 书 的 所 
有 版 本 ,要 比 将 不 同 版 本 的 《 简 * 爱 》 看 做 不 同 的 物品 来 推荐 更 有 用 。 从 某 种 意义 上 讲 ， 这 就 
属于 基于 内 容 的 推荐 了 。 把 一 本 书 中 的 文字 (这 是 基于 内 容 推荐 的 显著 特征 ) 作为 协同 过 滤 的 
推荐 物品 ， 然 后 应 用 Mahout 中 的 协同 过 滤 技 术 ， 这 个 书 商 就 完成 了 一 种 基于 内 容 的 推荐 。 

回忆 一 下 ， 基 于 物品 的 推荐 程序 需要 定义 给 定 两 个 物品 之 间 的 相似 度 。 这 一 相似 度 封装 在 
ItemSsimilarity 的 实现 中 。 目 前 为 止 , 所 有 的 实现 都 只 从 用 户 的 偏好 值 中 推导 出 相似 度 一 一 这 
是 经 典 的 协同 过 滤 。 但 是 没有 理由 说 相似 度 不 能 基于 物品 属性 来 计算 。 例 如 , 一 个 电影 推荐 程序 
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可 能 把 物品 (电影 ) 间 的 相似 度 定 义 为 诸如 流派 、 导 演 、 演 员 、 上 上 映 年 份 等 这 些 电影 属性 的 函数 。 
在 传统 的 基于 物品 的 推荐 程序 中 使 用 这 种 实现 也 算是 一 个 基于 内 容 进行 推荐 的 例子 。 


47.2 ”深入 理解 基于 内 容 的 推荐 算法 


更 进一步 , 我们 可 以 把 基于 内 容 的 推荐 看 做 是 更 具 一 般 性 的 协同 过 滤 。 在 协同 过 滤 中 , 我 们 
基于 偏好 值 来 进行 计算 ， 而 偏好 值 就 是 用 户 与 物品 之 间 的 关联 。 但 “驱动 ”这 种 用 户 与 物品 之 间 
关联 的 又 是 什么 呢 ? 就 是 用 户 对 特定 的 物品 属性 有 着 某 种 隐 含 的 偏好 , 结果 完全 反映 在 用 户 对 特 
定 物品 的 偏好 值 上 。 例 如 , 如果 朋 友 告诉 你 她 喜欢 Led Zeppelin I, Led Zeppelin I 和 Led Zeppelin III 
这 些 专辑 , 你 可 以 比较 有 把 握 地 猜测 她 实际 上 是 对 这 些 物 品 的 一 个 属性 表达 了 偏好 : Led Zeppelin 
乐队 。 通 过 发 掘 这 些 关联 并 发 觉 物 品 的 属性 ， 我 们 就 有 可 能 基于 这 些 对 用 户 - 物 品 关 联 更 细致 的 
了 解 来 构建 推荐 引擎 。 

这 些 技术 与 搜索 和 文档 检索 技术 类 似 : 基于 用 户 与 属性 之 间 的 关联 和 物品 的 属性 来 判断 一 个 
用 户 可 能 会 喜欢 什么 物品 ， 跟 基于 查询 词 项 和 文档 词 项 的 出 现 来 确定 检索 结果 是 类 似 的 。 尽 管 
Mahout 的 推荐 程序 尚未 包含 这 些 技术 ， 但 在 将 来 的 版 本 中 这 会 是 一 个 很 自然 的 改进 方向 。 


48 ”对比 基于 模型 的 推荐 算法 


基于 模型 的 推荐 是 Mahout 未 来 的 又 一 发 展 方向 。 这 类 技术 试图 基于 已 有 的 偏好 值 为 用 户 偏好 
建立 某 种 模型 ,然后 推测 新 的 偏好 值 。 这 些 技术 通常 可 被 认为 是 更 广义 的 协同 过 滤 ， 因 为 它们 仅 
仅 基于 用 户 偏好 值 来 进行 推荐 。 

模型 可 以 是 用 户 偏好 值 的 概率 图 , 例如 可 以 是 贝 叶 斯 网 络 的 形式 。 随 后 算法 会 试图 基于 现 有 
的 用 户 偏好 值 来 判断 用 户 喜 欢 一 个 新 物品 的 概率 ， 并 在 此 基础 上 对 推荐 结果 进行 排序 。 

关联 规则 学 习 可 以 用 于 类 似 的 推荐 场合 。 通 过 从 数据 中 学 习 诸如 “如 果 用 户 喜 欢 物品 X 和 物 
品 Y， 那 他 们 也 会 喜欢 物品 Z” 之 类 的 规则 ， 并 评估 这 些 规则 的 可 信和 度 ， 一 个 推荐 程序 就 可 以 得 
到 新 的 ， 且 可 能 最 受 欢迎 的 物品 的 集合 。 

基于 聚 类 的 推荐 程序 也 算是 一 种 基于 模型 的 推荐 程序 。 聚 类 所 得 到 的 复 就 表示 一 个 模型 ， 该 模 
型 描述 用 户 如何 成 组 ， 进 而 描述 他 们 的 偏好 值 缘何 具有 相似 性 。 如 果 只 从 这 一 点 上 看 ，Mahout 支 持 
基于 模型 的 推荐 程序 。 但 在 本 书写 作 期 间 ，Mahout 中 这 一 部 分 内 容 仍然 处 于 紧锣密鼓 的 开发 之 中 。 


4.9 小 结 


本 章 ， 我 们 深入 探讨 了 Mahout 中 核心 的 推荐 算法 。 

通过 现实 世界 中 的 示例 , 我 们 解释 了 一 般 意义 上 的 基于 用 户 的 推荐 算法 。 接 下 来 , 我 们 了 解 
了 这 个 算法 在 Mahout 中 的 实现 ， 即 GenericUserBasedRecommender。 这 一 通用 方法 有 很 多 可 
以 定制 的 地 方 ， 例 如 用 户 相 似 度 和 用 户 邻 域 的 定义 。 

我 们 了 解 了 经 典 的 用 户 相 似 性 度量 ， 即 基于 皮尔 逊 相关 系数 的 相似 性 度量 , 提 到 了 这 种 方法 
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存在 的 一 些 问题 ， 并 讨论 了 一 些 解 决 方法 ， 例 如 加 权 。 另 外 ,我们 也 介绍 了 基于 欧 氏 距离 、 斯 皮 
尔 曼 相关 系数 、 谷 本 系数 以 及 对 数 似 然 比 的 相似 性 度量 。 

接 下 来 我 们 介绍 了 另 一 类 典型 的 推荐 技术 ， 即 基于 物品 的 推荐 ， 其 对 应 实现 为 GenericItem- 
BasedRecommender。 它 用 到 了 前 面 介 绍 基于 用 户 的 推荐 程序 时 提 到 的 一 些 概念 ， 例 如 皮尔 逊 相关 
系数 。 

然后 ,我 们 介绍 了 slope-one 推 荐 算法 ， 它 是 一 个 独特 而 又 相对 简单 的 方法 ,基于 物品 之 间 偏 
好 值 的 平均 差异 进行 推荐 。 得 到 这 些 平均 差异 值 需 要 预先 进行 大 量 计算 , 并 且 要 花费 大 量 空间 来 
存储 它们 ， 所 以 我 们 介绍 了 如 何 同时 在 内 存 和 数据 库 中 存储 它们 。 

最 后 ,我 们 简要 介绍 了 当前 框架 中 一 些 较 新 的 、 试 验 性 质 的 实现 , 包括 基于 奇异 值 分 解 、 线 
性 插值 以 及 聚 类 方法 的 实现 。 由 于 目前 仍 在 开发 之 中 , 这 些 方法 的 应 用 可 能 仅 限于 小 数据 集 上 的 
实验 使 用 或 用 于 学 术 研究 。 

各 种 实现 的 关键 参数 和 特性 汇总 在 表 4-8 中 。 

表 4-8 Mahout 中 现 有 推荐 程序 实现 的 汇总 ， 包 括 选 择 一 种 实现 时 需要 考虑 的 关 


键 输入 参数 及 关键 特性 
x 现 关键 参数 关键 特性 
GenericUserBasedRecommender e 用 户 相 似 性 度量 e 传 统 的 实现 
。 邻 域 定义 及 其 大 小 o 用 户 数 较 少 时 相对 较 快 
GenericItemBasedRecommender e 物品 相似 性 度量 © 物品 数 相 对 较 少 时 较 快 
。 存 在 物品 相似 性 的 外 部 定义 时 比较 有 效 
SlopeOneRecommender 。 差 异 值 存储 方式 。 在 运行 时 进行 推荐 和 更 新 数据 都 很 快 
。 需 要 预先 进行 大 量 计算 
。 适 合 物品 数 相 对 很 少 的 情况 
SVDRecommender o 特征 数量 o 效果 很 好 
。 需 要 预先 进行 大 量 计算 
KnnItemBasedRecommender e 中 值 个 数 (k) 8 物品 数 较 少 时 效果 很 好 
© 物品 相似 性 度量 
。 邻 域 大 小 
TreeClusteringRecommender e 聚 类 个 数 9 在 运行 时 推荐 很 快 
。 聚 类 相似 性 定义 。 需 要 预先 进行 大 量 计算 
© 用 户 相 似 性 度量 © 用 户 数 较 少 时 效果 很 好 


我 们 已 经 介绍 了 Mahout 对 推荐 引擎 的 支持 情况 , 现在 可 以 从 实际 应 用 的 角度 出 发 , 去 尝试 更 
大 规模 的 真实 数据 集 了 。 你 可 能 会 奇怪 : 为 什么 到 目前 为 止 很 少 提 及 Hadoop? Hadoop 是 一 个 强 
有 力 的 工具 ， 当 需要 使 用 很 多 机 器 处 理 大 数据 集 时 ， 它 是 必 不 可 少 的 。 但 它 也 存在 缺陷 : 它 所 
处 理 的 是 资源 密集 型 的 庞大 计算 ， 因 此 这 些 计 算 的 完成 时 间 以 小 时 计 ， 而 不 是 毫秒 。 我 们 将 在 第 
一 部 分 的 最 后 一 章 讨 论 Hadoop。 

在 下 一 章 中 , 我 们 首先 将 基于 Mahout 创 建 一 个 运行 在 一 台 机 器 上 的 、 可 用 于 生产 环境 的 推荐 
引擎 ， 它 可 以 在 不 到 1 s 的 时 间 内 对 推荐 请 求 作出 响应 ， 并 能 够 快速 更 新 信息 。 
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本 章 内 容 

O 分 析 来 自 真实 约会 网 站 的 数据 

口 设计 并 调 优 一 个 推荐 引擎 

口 在 生产 环境 中 部 署 一 个 基于 Web 的 推荐 服务 


迄今 为 止 ， 本 书 介 绍 了 Apache Mahout 所 提供 的 推荐 算法 及 其 变种 ， 并 讨论 了 如 何 评估 一 个 
推荐 程序 的 精度 和 性 能 。 下 一 步 是 把 它们 都 应 用 在 真实 数据 集 上 ,从 零 开 始 创建 一 个 高 效 的 推荐 
引擎 。 我 们 将 依赖 某 个 约会 网 站 的 数据 创建 一 个 推荐 引擎 , 并 把 它 变 成 一 个 可 部 署 在 生产 环境 中 
的 Web 服 务 。 

没有 一 个 标准 的 方法 指导 我 们 在 给 定 的 数据 和 问题 域 上 构建 推荐 程序 。 但 至 少 , 数据 必须 能 
人 够 表达 用 户 和 物品 之 间 的 关联 , 其 中 这 里 的 用 户 和 物品 可 以 是 很 多 对 象 。 为 推荐 算法 设 定 输入 数 
据 的 过 程 通常 是 与 特定 问题 相关 的 。 而 你 如 何 找到 最 优 的 推荐 引擎 来 适应 输入 数据 也 同样 与 场景 
有 关 。 这 不 可 避免 地 涉及 在 真实 数据 上 进行 实地 的 发 掘 、 实 验 和 评估 。 

本 章 给 出 一 个 过 程 间 紧密 衔接 的 示例 ， 据 此 讲述 如 何在 数据 集 上 使 用 Mahout 开 发 推荐 系统 。 
首先 选取 一 个 方法 ,然后 收集 数据 、 评 估 结 果 ， 再 多 次 重复 这 个 过 程 。 其 中 有 许多 方法 并 不 会 被 
用 到 , 但 它们 也 同样 重要 。 这 种 暴力 的 方法 是 有 道理 的 , 因为 它 可 相对 轻松 地 评估 Mahout 中 的 一 
个 方法 。 另 外 ， 就 像 在 其 他 问题 域 中 一 样 ， 仅 仅 观察 数据 并 不 总 能 搞 清 楚 什 么 是 正确 的 方法 。 


5.1 分 析 来 自 约会 网 站 的 样本 数据 


下 面 使 用 一 个 新 的 数据 集 ， 它 来 自 捷克 的 一 个 约会 网 站 一 一 Libfmseti ( http://libimseti.cz/ )。 
该 网 站 的 用 户 可 以 对 其 他 用 户 的 档案 进行 评分 ,分 值 从 1 到 10 不 等 。 分 值 为 1 代表 NELIBI ( 即 不 
喜欢 ), 分 值 为 10 代 表 LiBI( 即 喜欢 ), 网 站 展示 的 档案 可 以 让 该 网 站 的 用 户 对 已 建 档 用 户 的 气质 、 
形象 以 及 可 约会 性 做 一 些 评价 。 大量 的 这 类 数据 被 匿名 化 ,可 供 研 究 使 用 , 并 已 由 Vaclav Petricek 
发 布 ( http://www.occamslab.com/petricek/data/ ) "。 你 需要 从 该 网 站 上 下 载 完 整 的 数据 副本 


@ 另 参 见 Lukas Brozovsky 和 Vaclav Petricek 的 “Recommender System for Online Dating Service” , 网 址 为 http://www.occamslab. 
com/petricek/papers/dating/brozovsky07recommender.pdf 。 
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( http://www.occamslab.com/petricek/data/libimseti-complete.zip )， 以 便 使 用 本 章 中 的 示例 。? 

该 数据 集 有 17 359 346 份 评分 ， 几乎 是 我 们 之 前 所 用 GroupLens 数 据 集 的 两 倍 。 它 包含 用 户 对 
物品 的 明确 评分 , 这 里 的 物品 为 其 他 人 的 用 户 档案 。 这 意味 着 建立 在 该 数据 上 的 推荐 系统 是 将 人 
推荐 给 人 。 这 提醒 我 们 从 更 宽广 的 视角 来 理解 推荐 程序 , 而 不 只 是 局 限 在 书 和 DVD 这 样 的 推荐 对 
RAE. 

生成 推荐 程序 首先 要 做 的 事情 是 分 析 所 要 用 到 的 数据 , 并 开始 琢磨 什么 样 的 推荐 算法 才 是 适 
合 的 。 你 下 载 的 ratings.dat 文 件 有 257 MB ， 是 一 个 简单 的 以 逗号 分 界 的 文件 ， 包 含 用 户 ID 、 档 案 
ID 和 评分 ,每 行 代表 一 个 用 户 对 另 一 个 用 户 的 档案 的 一 次 评分 。 数 据 被 有 意 地 做 了 模糊 处 理 ， 因 
此 用 户 ID 并 非 网 站 上 的 真实 用 户 ID。 而 档案 就 是 其 他 用 户 的 档案 ,数据 则 代表 对 其 他 用 户 的 评分 。 
你 可 能 会 认为 这 里 用 户 人 D 和 档案 人 D 是 对 等 的 ， 比 如 用 户 ID 1 和 档案 ID 1 是 同一 个 用 户 ， 但 因为 做 
了 匿名 处 理 ， 实 际 上 并 非 如 此 。 

在 数据 中 存在 135 359 个 独立 用 户 ， 总 共 评 价 了 168 791 个 独立 的 用 户 档 案 。 因 为 用 户 和 物品 
的 个 数 大 致 相同 ， 基 于 用 户 和 基于 物品 的 推荐 都 不 会 明显 更 优 。 假 设 档案 数 比 用 户 数 大 得 多 , 则 
基于 物品 的 推荐 程序 会 更 慢 。 这 里 可 以 用 slope-one, 即便 它 的 内 存 需 求 会 随 着 物品 个 数 快速 增加 ， 
但 可 以 对 此 进行 限制 。 

这 个 数据 集 经 过 了 预 处 理 : 剔除 了 生成 评分 个 数 不 到 20 个 的 用 户 。 而 且 , 其 中 排除 了 几乎 对 每 
个 档案 都 给 出 相同 分 值 的 用 户 , 因为 这 可 能 是 垃圾 信息 或 不 严肃 的 评分 。 如果 来 自用 户 的 数据 是 他 
们 真心 做 出 的 评分 ， 想必 相 比 于 不 那么 投入 的 用 户 做 的 评分 ， 他 们 的 输入 数据 有 用 且 无 噪声 的 。 

输入 数据 的 格式 直接 可 以 用 于 Mahout 的 FileDataModel。 即 用 户 和 档案 人 D 是 数字 ， 文 件 按 
字段 依次 以 逗号 分 隔 : 用 户 ID ， 物 品 ID 和 偏好 值 。 

下 载 的 压缩 包 中 还 有 另 一 个 有 趣 的 数据 集 gender.dat: 大 部 分 档案 的 用 户 性 别 。 不 是 所 有 的 档 
案 都 有 性 别 信息 ， 在 gender.dat 中 ， 有 些 行 以 U 结 尾 ， 表 示 性 别 未 知 。 在 数据 集中 给 出 的 不 是 用 户 
的 性 别 一 一 而 是 档案 的 性 别 一 一 但 是 我 们 还 是 多 知道 了 一 些 物品 的 信息 。 当 被 推荐 时 ,男性 档案 
之 间 会 比 男性 档案 和 女性 档案 之 间 表 现 得 更 像 ,反之 亦 然 。 如 果 某 个 用 户 的 大 多 数 或 全 部 评分 都 
面向 男性 档案 , 就 有 理由 相信 该 用 户 对 与 男性 档案 约会 的 意愿 远 比 女性 档案 更 强 。 这 个 信息 会 成 
为 物品 之 间 相 似 性 评估 的 基础 。 

这 并 不 是 一 个 完美 的 假设 。 这 里 并 不 转向 性 别 这 个 敏感 的 话题 , 我 们 注意 到 网 站 的 一 些 用 户 
可 能 会 乐此不疲 地 评论 别人 的 档案 , 即使 他 们 根本 不 会 去 约会 属于 该 档案 性 别 的 人 。 一 些 用 户 还 
可 能 拥有 对 两 种 性 别 的 浪漫 情节 。 事 实 上 ， 在 ratings.dat 中 最 开始 的 两 个 评分 来 自 于 同一 个 用 户 ， 
显然 面向 的 是 两 种 不 同性 别 的 档案 。 

在 这 种 约会 网 站 的 推荐 引擎 中 考虑 性 别 是 非常 重要 的 ; 如 果 把 一 个 女性 推荐 给 一 个 仅 对 男性 
感 兴 趣 的 用 户 , 它 必然 会 是 一 个 很 糟糕 的 推荐 , 而 且 会 有 些 冒 犯 用 户 。 做 这 个 限制 是 非常 重要 的 ， 
但 对 于 我 们 在 Mahout 中 见 到 的 标准 推荐 算法 而 言 , 这 种 限制 并 不 是 完全 契合 的 。 本 章 后 续 各 节 将 
检视 如 何 作为 一 个 过 滤器 和 一 种 相似 性 度量 方法 将 之 插入 推荐 算法 中 。 


D 该 网 站 及 数据 发 布 者 均 与 本 书 无 关 。 
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5.2 ”找到 一 个 有 效 的 推荐 程序 


为 了 新 建 一 个 推荐 引擎 来 处 理 Libftmseti 数 据 ,你 需要 从 Mahout 中 挑选 一 个 推荐 程序 。 这 个 推 
荐 程序 应 该 既 快 又 好 。 两 相 权 衡 ， 最 好 先 关注 推荐 的 质量 ， 再 考虑 性 能 。 毕 竟 ， 飞 快 地 生成 一 个 
很 差 的 推荐 有 什么 用 呢 ? 

观察 数据 不 可 能 推测 出 正确 的 实现 ， 需 要 做 一 些 尝 试 性 的 测试 。 准 备 好 第 2 章 的 推荐 程序 评 
估 框 架 之 后 ， 就 可 以 搜集 各 种 实现 在 这 个 数据 集 上 的 表现 了 。 


5.2.1 基于 用 户 的 推荐 程序 


自然 先 从 基于 用 户 的 推荐 程序 开始 。 在 Mahout 中 可 以 选择 多 种 不 同 的 相似 性 度量 和 邻 域 定 
义 。 为 了 了 解 哪些 好 用 哪些 不 好 用 ,你 可 以 尝试 许多 种 组 合 。 在 我 们 的 测试 环境 中 的 一 些 实验 结 
果 参 见 表 5-1、 表 5-2 和 图 5-1、 图 5-2。 


表 5-1 基于 一 种 相似 性 度量 和 用 户 的 n 个 最 近邻 评估 基于 用 户 的 推荐 程序 ， 所 得 
到 的 估计 和 实际 偏好 值 之 间 的 平均 绝对 差 值 


相似 性 度量 标准 n=1 n=2 n=4 n=8 n=16 n=32 n=64 n=128 
欧 氏 距离 1.17 1.12 1.23 1.25 1.25 1.33 1.48 1.43 
皮尔 逊 相关 系数 1.30 1.19 1.27 1.30 1.26 1.35 1.38 1.47 
对 数 似 然 1.33 1.38 1.33 1.35 1.33 1.29 1.33 1.49 
谷 本 系数 1.32 1.33 1.43 1.32 1.30 1.39 1.37 1.41 


表 5-2 ”基于 一 种 相似 性 度量 和 用 户 的 基于 阅 值 的 最 近邻 评估 基于 用 户 的 推荐 程序 ， 所 得 到 的 估计 和 实际 
偏好 值 之 间 的 平均 绝对 差 值 。 一 些 值 为 “not a number” (未 定义 ) ， 由 Java 的 NaN 符 号 表示 


相似 性 度量 标准 t=0.95 f=0.9 t=0.85 t0.8 t0.75 0.7 
欧 氏 距离 1.33 1.37 1.39 1.43 1.41 1.47 
皮尔 逊 相关 系数 1.47 1.4 1.42 1.4 1.38 1.37 
对 数 似 然 1.37 1.46 1.56 1.52 1.51 1.43 
谷 本 系数 NaN NaN NaN NaN NaN NaN 

Ze 

1.5 

h [下 

13 | ae 


+1 = 对 数 似 然 i 
sl res | 


> 4 ® 16 32 64 128 
邻 域 大 小 


图 5-1 表 5-1 中 值 的 可 视 化 
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a 
ei | [a REC EE BS ] 
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ae 
图 5-2 表 5-2 中 值 的 可 视 化 


上 面 的 结果 还 不 错 。 这 些 推荐 程序 所 估计 的 用 户 偏好 平均 偏差 在 1.12~1.56 之 间 , 而 取 值 范围 
为 1~10。 

这 里 可 以 得 到 一 些 趋势 , 尽管 有 些 独 立 的 评估 结果 与 此 趋势 不 同 。 看 起 来 欧 氏 距离 相似 性 度 
量 似 乎 比 皮尔 逊 相关 系数 略 好 ， 虽 然 它 们 的 结果 非常 相似 。 此 外 ,小 的 邻 域 比 大 的 好 ， 邻 域 为 两 
人 时 所 得 评估 结果 最 佳 。 也 许 用 户 的 偏好 的 确 相 当 个 性 化 , 在 计算 中 引入 太 多 其 他 的 人 不 会 有 什 
么 帮助 。 

如 何 解释 基于 谷 本 系数 的 相似 性 度量 得 到 的 NaN ( 非 数字 ) 结果 呢 ? 将 它 列 出 是 为 了 凸显 该 
度量 方式 的 特殊 性 。 虽 然 所 有 的 相似 性 度量 都 返回 一 个 介 于 -1~1 之 间 的 值 , 而 且 值 越 高 意味 着 相 
似 性 越 大 , 但 每 个 相似 性 度量 下 的 值 并 不 代表 相同 的 含义 。 这 是 普遍 的 真理 ,而 非 Mahout 故 意 为 
之 。 例 如 ， 在 基于 皮尔 森 相关 系数 的 度量 中 0.5 表 示 中 等 相似 度 ， 然 而 对 于 谷 本 系数 ，0.5 意 味 着 
两 个 用 户 非常 相似 : 他 们 所 共 知 的 物品 占 了 全 部 物品 的 一 半 。 

即使 0.7~0.95 的 冰 值 对 于 其 他 度量 是 合理 的 ， 但 对 于 基于 谷 本 系数 的 相似 性 度量 而 言 ， 它 们 
却 相当 大 。 对 于 每 次 测试 ， 这 个 门槛 都 设 得 太 高 了 ， 导 致 无 法 建立 用 户 的 邻 域 ! 这 里 , 也许 从 0.4 
向 下 测试 阀 值 更 为 有 用 。 事 实 上 ， 设 阔 值 为 0.3， 最 佳 的 评估 分 值 接近 1.2。 

类 似 地 , 虽然 对 于 n 个 最 近邻 构成 的 邻 域 数 据 显然 存在 一 个 最 优 的 n 值 , 但 是 对 于 基于 阔 值 的 
用 户 邻 域 , 根本 不 存在 一 个 同样 的 最 优 值 例如， 基于 欧 氏 距离 的 相似 性 度量 似乎 当 羡 值 增加 时 
会 取得 更 好 的 结果 。 对 于 在 邻 域 中 的 那些 最 有 价值 用 户 , 它们 基于 欧 氏 距离 的 相似 度 大 体 上 应 该 
超过 0.95。 那 么 取 0.99 会 怎样 ? 或 者 0.999? 评估 结果 反而 下 降 为 1.35 左 右 ; 不 是 很 糟 ,但 显然 并 
非 最 好 的 推荐 程序 。 

你 可 以 继续 寻找 更 好 的 配置 参数 。 但 是 ， 这 里 我 们 在 Mahout 中 选用 的 最 佳 方案 为 : 

口 基于 用 户 的 推荐 程序 ; 

O 欧 氏 距离 相似 性 度量 ; 

口 两 个 最 近邻 的 邻 域 。 


5.2.2 ”基于 物品 的 推荐 程序 


基于 物品 的 推荐 程序 只 需要 选择 一 种 物品 的 相似 性 度量 方法 。 最 直接 的 方法 是 把 每 个 相似 性 
度量 都 尝试 一 遍 ， 看 哪 种 最 好 用 。 这 样 做 之 后 的 输出 结果 汇总 在 表 5-3 中 。 
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表 5-3 基于 多 种 不 同 的 相似 性 度量 评估 一 个 基于 物品 的 推荐 程序 ， 得 到 估 
计 和 实际 偏好 值 之 间 的 平均 绝对 差 值 


相似 性 度量 标准 评 分 
欧 氏 距离 2.36 
皮尔 逊 相关 系数 2.32 
对 数 似 然 2.38 
谷 本 系数 2.40 


评分 显然 下 降 很 多 ; 平均 误差 ， 即 估计 值 和 实际 值 的 平均 差 值 ， 翻 了 大 概 两 倍 ， 具 体 值 超过 


了 2。 对 于 上 述 数 据 ， 基 于 物品 的 推荐 方法 不 太 有 效 。 为 什么 呢 ? 之 前 ， 算 法 以 基于 用 户 的 方式 
计算 用 户 间 的 相似 度 ， 以 用 户 对 其 他 用 户 的 档案 评分 为 依据 。 现 在 ， 它 计算 的 是 用 户 档案 之 间 的 
相似 度 , 依据 的 是 其 他 用 户 对 档案 的 评分 。 也 许 这 样 做 的 意义 不 大 : 评分 所 表达 的 信息 ， 更 多 是 
关于 评价 者 (rater) 的 ， 而 不 是 关于 被 评价 档案 〈rated profile ) 的 。 

无 论 如 何 ， 从 结果 中 可 以 清晰 地 看 到 : 在 这 里 ， 基 于 物品 的 推荐 并 非 最 佳 选 择 。 


5.2.3 ”slope-one 推 荐 程序 


回顾 一 下 ，slope-one 推 荐 程序 在 数据 模型 中 的 大 多 数 物 品 对 之 间 求 得 一 个 差 值 。 这 里 有 
168 791 个 物品 ( 档案 )， 就 意味 着 潜在 存储 了 280 亿 个 差 值 一 一 它 过 于 庞大 而 无 法 存 人 人 内存。 或 
许可 以 在 数据 库 中 存储 这 些 差 值 ， 但 这 会 极 大 地 降低 性 能 。 

幸运 的 是 , 还 有 男 一 种 选择 ， 即 通过 框架 将 存储 的 差 值 个 数 限制 在 大 约 一 千 万 个 ， 如 代码 清 
单 5-1 所 示 。 框 架 会 试图 选择 最 有 用 的 差 值 来 保存 。 这 里 所 指 的 最 有 用 的 差 值 是 指 那 些 最 经 常 一 
起 出 现 的 物品 对 之 间 的 差 值 。 例 如 ， 如 果 物 品 A 和 B 出 现在 几 百 个 用 户 的 偏好 值 中 ， 在 它们 的 偏 
好 值 中 的 平均 差 值 会 非常 大 ， 而 且 是 有 用 的 。 如 果 A 和 B 仅 一 起 出 现在 一 个 用 户 的 偏好 值 中 ， 它 
更 多 的 是 一 个 巧合 的 数据 ， 而 不 值得 去 存储 。 


代码 清单 5-1 通过 MemoryDiffstorage 限 制 内 存 占 有 量 


DiffStorage diffStorage = new MemoryDiffStorage( 
model, Weighting.WEIGHTED, 10000000L); 
return new SlopeOneRecommender ( 
model, Weighting.WEIGHTED, Weighting.WEIGHTED, diffStorage) ; 


通过 检查 Mahout 输 出 的 日 志 可 知 ， 这 个 方法 所 占用 的 内 存量 大 约 为 1.5 GB。 你 还 会 注意 到 
Slope-one 的 速度 ， 在 我 们 做 测试 的 工作 站 上 ， 平 均 的 推荐 时 间 小 于 10 ms， 而 其 他 算法 则 需要 大 
24200 ms. 

评估 结果 为 1.41 左 右 。 这 还 不 错 , 但 并 没有 好 到 基于 用 户 的 推荐 的 水 平 。 似 乎 对 于 这 个 特定 
的 数据 集 ， 没 有 必要 花 力 气 使 用 Slope-one。 


5.24 评估 查 准 率 和 查 全 率 
之 前 的 案例 试用 了 基于 对 数 似 然 比 的 相似 性 度量 和 基于 谷 本 系数 的 相似 性 度量 ,它们 都 没有 使 
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用 用 户 的 偏好 值 。 但 是 , 这 些 案例 却 无 法 对 完全 忽略 偏好 值 的 推荐 程序 进行 评价 。 无 法 以 相同 的 方 
式 评估 这 些 推 荐 程序 一 一 没有 估计 的 偏好 值 可 以 去 和 实际 值 做 比较 ， 因 为 根本 就 没有 偏好 值 。 

使 用 RecommenderIRStatsEvaluator 可 以 比较 这 些 推荐 程序 相对 于 当前 最 佳 方案 ( 基于 
用 户 的 推荐 程序 ， 采 用 欧 氏 距离 测度 上 且 邻 域 为 2 ) 的 查 准 率 和 查 全 率 。 该 评估 程序 显示 了 推荐 结 
果 为 10 时 的 查 准 率 和 查 全 率 ( 就 是 说 ， 查 准 率 和 查 全 率 由 前 10 个 推荐 结果 来 评判 )， 它 们 分 别 约 
为 3.6% 和 5%。 值 似乎 比较 低 : 这 个 推荐 程序 基本 不 会 推荐 用 户 自 己 评分 高 的 那些 档案 。 不 过 在 
该 场景 下 ,这 未 必 是 坏事 。 可 以 想象 用 户 在 约会 网 站 上 所 能 找到 的 、 可 评 为 10 分 的 完美 档案 可 能 
有 很 多 ,但 用 户 遇 到 和 评价 过 的 大 概 只 占 其 中 很 少 一 部 分 。 最 好 是 由 推荐 程序 来 提出 更 好 的 建议 ， 
而 不 是 仅 给 出 用 户 评 过 分 的 那些 档案 ! 的 确 如 此 , 这 正 是 推荐 程序 所 应 传达 的 , 那些 用 户 评分 很 
高 的 档案 并 不 一 定 是 他 们 最 喜欢 的 ， 除 非 他 们 真 的 看 过 每 一 个 已 有 的 档案 。 

当然 , 男 一 种 解释 是 推荐 程序 的 执行 有 问题 。 但 是 ,鉴于 这 个 推荐 程序 可 以 很 好 地 估计 出 偏 
好 值 ， 所 估计 的 分 值 在 10 分 制 中 只 有 大 约 1 分 左右 的 误差 。 因 此 ， 上 一 段 的 解释 应 该 是 对 的 。 

如 果 我 们 忽略 评分 数据 进行 推荐 ， 需 使 用 Mahout 的 GenericBooleanPrefDataModel、 
GenericBooleanPrefUserBasedRecommender 和 一 个 像 LogLikelihoodsimilarity 这 样 
的 合适 的 相似 性 度量 , 此 时 就 会 出 现 一 件 有 趣 的 现象 ,在 这 个 案例 中 , 查 准 率 和 查 全 率 增长 到 22% 
以 上 。 使 用 ranimotocoefficientsimilarity 也 会 看 到 类 似 的 结果 。 这 些 结果 表面 上 看 起 来 
变 好 了 , 它们 意味 着 这 种 〈 基 于 布尔 型 偏好 的 ) 推荐 引擎 更 擅长 向 用 户 推荐 他 们 可 能 已 经 见 过 的 
那些 档案 。 如 果 有 确凿 的 证 据 显 示 用 户 确 实 看 过 了 大 部 分 档案 , 他 们 实际 评 为 高 分 的 档案 会 是 指 
引 我 们 找到 正确 答案 的 一 个 明确 信和 号。 但是， 对 于 有 几 十 个 档案 的 约会 网 站 ， 这 并 不 适用 。 

在 其 他 场景 中 ， 获 得 高 的 查 准 率 和 查 全 率 也 许 是 很 重要 的 , 但 在 这 里 似乎 并 非 如 此 。 至 于 我 
们 ， 仍 将 继续 使 用 之 前 基于 用 户 的 推荐 程序 (基于 欧 氏 距离 相似 度 和 大 小 为 100 的 邻 域 )， 而 不 会 
改 用 其 他 的 推荐 程序 。 


5.2.5 ”评估 性 能 


评估 我 们 所 选择 的 推荐 程序 的 运行 性 能 非常 重要 。 加 为 要 支持 实时 查询 , 所 以 实现 一 个 要 在 
几 分 钟 时 间 内 完成 推荐 的 推荐 程序 意义 不 大 。 

与 以 前 一 样 ， 可 以 使 用 LoadEvaluator 类 评估 每 个 推荐 所 用 的 时 间 。 我 们 在 该 数据 集 上 运 
行 这 个 推荐 程序 ， 采 用 如 下 的 标志 类 参数 : -server -d64 -Xmx2048m -XX:+UseParallelcc 
-XX:+UseParalleloldcc。 我 们 会 发 现在 测试 机 上 平均 每 次 推荐 会 用 218 ms。 这 个 应 用 在 运行 
时 仅 占 用 1GB 左 右 的 堆 空间 。 这 些 测 试 结果 是 否 可 被 接受 , 这 依赖 于 应 用 的 需求 和 可 用 的 硬件 资 
源 。 对 于 许多 应 用 而 言 ， 这 些 测试 数据 应 该 还 是 符合 要 求 的 。 

至 此 , 我 们 只 是 在 手头 的 数据 集 上 应 用 了 标准 的 Mahout 推 荐 程序 。 我 们 没有 做 任何 定制 。 但 
是 , 为 一 个 特定 的 数据 集 或 网 站 生成 最 优 的 推荐 系统 不 可 避免 地 需要 利用 所 有 已 知 的 信息 。 进 而 ， 
这 需要 对 Mahout 中 的 那些 标准 实现 做 些 定制 和 特殊 处 理 , 来 利用 关于 手头 问题 的 特殊 属性 。 在 下 
一 节 ， 我 们 将 对 现 有 的 Mahout 实 现 做 一 些 扩展 ， 利 用 约会 数据 的 特定 属性 来 提高 推荐 的 质量 。 


5.3 引入 特定 域 的 信息 65 


5.3 引入 特定 域 的 信息 1S 


至 今 推荐 程序 没有 利用 任何 特定 的 背景 知识 。 具 体 来 讲 , 它 还 没有 利用 这 样 的 事实 ， 即 评分 
发 生 在 人 和 人 之 间 。 推 荐 程序 完全 使 用 用 户 档案 评分 ， 就 好 像 针对 图 书 、 汽 车 或 水 果 的 评分 。 但 
是 ,通常 可 以 通过 数据 中 额外 的 信息 来 改善 推荐 质量 。 

本 节 中 ,我 们 将 寻求 引入 该 数据 集中 一 个 尚未 使 用 的 重要 信息 : 性 别 (gender )。 我 们 基于 
性 别 定制 了 一 个 Itemsimilarity 度 量 ， 并 力求 避免 推荐 性 别 不 当 的 用 户 。 


5.3.1 采用 一 个 定制 的 物品 相似 性 度量 


因为 已 经 给 定 了 许多 档案 的 性 别 ， 你 可 以 仅仅 基于 性 别 为 档案 对 建立 一 个 简单 的 相似 性 度 
量 。 因 为 档案 就 是 这 里 的 物品 ， 所 以 它 在 框架 中 应 该 是 Ttemsimilarity。 

例如 ,认为 两 个 男性 或 者 两 个 女性 档案 非常 相似 ， 并 设置 它们 的 相似 度 为 1.0。 假定 男性 和 女 
性 档案 之 间 的 相似 度 为 -1.0。 最 后 , 一 对 档案 中 一 个 或 两 个 的 性 别 未 知 , 则 设 两 者 的 相似 度 为 0.0。 

这 个 想法 很 简单 ， 也许 过 度 简单 了 。 它 应 该 会 非常 快 , 但 是 会 在 度量 计算 中 丢失 与 评分 相关 
的 所 有 信息 。 对 于 该 实验 ， 我 们 采用 一 个 基于 物品 的 推荐 程序 ， 如 下 所 示 。 


代码 清单 5-2 一 个 基于 性 别 的 物品 相似 性 度量 
public class GenderItemSimilarity implements Teens i { 


private final FastIDSet men; 
private final FastIDSet women; 


public GenderItemSimilarity(FastIDSet men, FastIDSet women) { 
this.men = men; 
this.women = women; 


} 


public double itemSimilarity(long profileID1, long profileID2) { 
Boolean profilelIsMan = isMan(profileID1) ; 
if (profilelIsMan == null) { 
return 0.0; 
} 
Boolean profile2IsMan = isMan(profileID2) ; 
if (profile2IsMan == null) { 
return 0.0; 
} 
return profilelIsMan == profile2IsMan ? 1.0 : -1.0; 
} 


public double[] itemSimilarities(long itemID1, long[] itemID2s) { 
double[] result = new double[itemID2s.length]; 
for (int i = 0; i < itemID2s.length; i++) { 
result[i] = itemSimilarity(itemID1, itemID2s[i]); 
} 


return result; 
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} 


private Boolean isMan(long profileID) { 
if (men.contains(profileID)) { 
return Boolean.TRUE; 
} 
if (women.contains(profileID)) { 
return Boolean.FALSE; 
} 
return null; 
} 


public void refresh(Collection<Refreshable> alreadyRefreshed) { 
// 什么 也 不 做 

} 

和 前 面 的 案例 一 样 ， 这 个 Itemsimilarity 度 量 可 以 与 标准 的 GenericItemBased- 
Recommender 一 起 使 用 ， 我 们 可 以 评估 这 个 推荐 程序 的 精度 。 这 个 概念 很 有 趣 ，, 但 是 这 里 得 到 
的 结果 为 2.35， 并 不 比 其 他 的 度量 更 好 。 如 果 可 以 获得 更 多 的 信息 ， 比 如 每 个 档案 所 表达 的 兴趣 
和 爱好 ， 就 可 以 作出 一 个 更 有 意义 的 相似 性 度量 ， 也 许 会 得 到 更 好 的 结果 。 

但 是 , 这 个 示例 给 出 了 基于 物品 的 推荐 程序 的 主要 优点 : 它 提 供 了 一 种 结合 物品 自身 信息 的 
手段 , 这 在 推荐 程序 中 很 常见 。 从 评估 的 结果 看 ,你 也 许 还 会 注意 到 这 种 基于 简捷 计算 相似 性 度 
量 的 推荐 程序 速度 有 多 快 ; 在 我 们 的 测试 节点 上 ， 生 成 推荐 结果 的 时 间 平 均 为 15 ms 左右 。 


5.3.2 ”基于 内 容 进行 推荐 


刚刚 出 现 的 一 个 要 点 , 可 能 会 被 你 忽略 掉 : 上 一 节 讲 的 是 一 个 基于 内 容 进 行 推荐 的 案例 。 它 
对 物品 相似 性 的 定义 不 是 基于 用 户 的 偏好 ,而 是 基于 物品 自身 的 属性 。 如 前 所 述 ，Mahout 并 不 提 
供 基于 内 容 推 荐 的 实现 , 但 是 却 支 持 扩展 并 提供 了 API, 允许 你 在 框架 中 写 代 码 来 部 署 这 种 实现 。 

对 于 仅 基于 用 户 偏好 的 协同 过 滤 方 法 而 言 , 这 种 实现 是 一 个 很 好 的 补充 。 你 可 以 很 好 地 引入 
自己 对 物品 ( 物品 在 此 处 是 指 人 ) 的 知识 , 来 强化 你 手 里 的 用 户 偏好 数据 ， 进 而 有 望 生成 更 好 的 
推荐 结果 。 

遗憾 的 是 , 前 面 的 物品 相似 性 度量 针对 的 是 手头 的 特定 问题 域 。 这 种 度量 对 其 他 问题 域 毫 无 
帮助 : 推荐 食品 、 电 影 或 者 旅行 目的 地 等 。 这 就 是 它 没有 成 为 框架 一 部 分 的 原因 。 但 是 只 要 你 拥 
有 特定 问题 域 的 知识 , 它 就 是 一 种 可 行 和 有 力 的 方法 , 它 在 描述 物品 相关 关系 时 比 用 户 偏好 更 为 
有 效 。 


5.3.3 ”利用 IDRescorer 修 改 推 荐 结果 


你 可 能 已 经 观察 到 Recommender .recommend() 方 法 中 有 一 个 类 型 为 IDRescorer 的 用 
final 修 饰 的 可 选 参 数 ， 你 可 以 不 调用 recommend (long userID, int howMany) ， 而 调用 
recommend (long userID, int howMany, IDRescorer rescorer) 5 这 个 接口 的 实现 多 次 
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出 现在 Mahout 推 荐 程序 的 相关 API 中 。 它 可 以 根据 某 种 逻辑 将 推荐 引擎 中 的 某 些 值 修 改 为 其 他 
值 ,也 可 以 在 某 个 过 程 中 将 一 个 实体 排除 出 去 。 例 如 , IDRescorer 可 以 任意 地 修改 Recommender 
对 一 个 物品 的 估计 偏好 值 。 它 还 可 以 将 一 个 物品 从 考虑 范围 内 彻底 去 除 掉 。 

假如 你 正在 为 一 个 电子 商务 网 站 的 用 户 推荐 图 书 。 如 果 用 户 正 在 浏览 的 是 悬疑 小 说 , 那么 在 
向 该 用 户 推荐 图 书 时 , 你 可 能 希望 将 所 有 悬疑 小 说 的 估计 偏好 值 都 提高 一 些 。 你 或 许 还 希望 确保 
不 去 推荐 那些 缺 货 的 书 。 IDRescorer 可 以 帮助 你 做 到 这 一 点 。 下 面 的 代码 清单 显示 了 一 个 
IDRescorer 的 实现 , 它 根 据 这 个 虚构 的 书 商 来 虚构 出 一 些 实现 类 ,如 cenre (MYR), 并 以 此 封 
装 了 这 一 逻辑 。 
代码 清单 5-3 示例 IDRescorer 忽 略 缺 货 图书 并 提高 一 个 流派 的 估计 值 


public class GenreRescorer implements IDRescorer { 


private final Genre currentGenre; 


public GenreRescorer(Genre currentGenre) { 
this.currentGenre = currentGenre; 
} 


public double rescore(long itemID, double originalScore) { _| Bitnooemnaaest 
Book book = BookManager.lookupBook(itemID) ; 


if (book.getGenre().equals(currentGenre)) { 
return originalScore * 1.2; 有 
*] 将 估计 值 提高 20% 
return originalScore; 
} | 其 他 保持 原状 


public boolean isFiltered(long itemID) { 
Book book = BookManager.lookupBook(itemID) ; 
return book.isOutOfStock(); < 一 一 过 滤 缺 货 的 图 书 
} 
} 


rescore () 方 法 将 悬疑 小 说 的 估计 偏好 值 提 高 了 。isFiltered() 方 法 显示 了 IDRescorer 
的 另 一 个 用 途 : 它 确 保 了 缺 货 的 图 书 不 会 被 推荐 。 

这 只 是 一 个 示例 ,和 我 们 的 推荐 网 站 没有 关系 。 让 我 们 把 这 个 思想 应 用 到 可 用 的 附加 数据 上 : 
性 别 。 


5.3.4 ”在 IDRescorer 中 引入 性 别 


对 于 在 乎 性 别 的 用 户 ，IDRescorer 能 够 对 物品 或 用 户 档案 进行 过 滤 。 首 先 ， 可 以 通过 检查 
已 经 评价 过 的 档案 的 性 别 , 来 猜测 该 用 户 所 偏好 的 性 别 。 然 后 , 就 可 以 滤 除 与 之 性 别 相 反 的 档案 ， 
如 下 所 示 。 


代码 清单 5-4 ”基于 性 别 的 TDRescorer 实 现 


public class GenderRescorer implements IDRescorer { 


private final FastIDSet men; 
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private final FastIDSet women; a! 缓存 更 多 对 男性 评分 的 用 户 


private final FastIDSet usersRateMoreMen; 
private final FastIDSet usersRateLessMen; 
private final boolean filterMen; 


public GenderRescorer(FastIDSet men, 
FastIDSet women, 
FastIDSet usersRateMoreMen, 
FastIDSet usersRateLessMen, 
long userID, DataModel model) 
throws TasteException { 
this.men = men; 
this.women = women; 
this.usersRateMoreMen usersRateMoreMen; 
this.usersRateLessMen usersRateLessMen; 
this.filterMen = ratesMoreMen(userID, model); 


I 


} 


public static FastIDSet[] parseMenWomen(File genderFile) | 之 后 分 别 被 调用 

throws IOException { 

FastIDSet men = new FastIDSet (50000) ; 

FastIDSet women = new FastIDSet (50000) ; 

for (String line : new FileLineIterable(genderFile)) { 
int comma = line.indexOf(','); 
char gender = line.charAt(comma + 1); 
if (gender == 'U') { 

continue; 

} 
long profileID = Long.parseLong(line.substring(0, comma) ); 
if (gender == 'M') { 


men.add(profilelID) ; 
} else { 
women.add(profilelID) ; 


} | 快速 访问 的 重新 优化 
men.rehash() ; 

women. rehash () ; 

return new FastIDSet[] { men, women }; 


} 


private boolean ratesMoreMen(long userID, DataModel model) 
throws TasteException { 


if (usersRateMoreMen.contains(userID)) { 
return true; 

} 

if (usersRateLessMen.contains(userID)) { 
return false; 

} 


PreferenceArray prefs = model.getPreferencesFromUser (userID); 
int menCount = 0; 
int womenCount = 0; 
for (int i = 0; i < prefs.length(); i++) { 
long profileID = prefs.get(i).getItemID(); 
if (men.contains(profileID)) { 
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menCount++; 
} else if (women.contains(profileID)) { 
womenCount++; 
} | " 
} 更 喜欢 男性 档案 
boolean ratesMoreMen = menCount > womenCount; 


if (ratesMoreMen) { 
usersRateMoreMen.add(userID) ; 

} else { 
usersRateLessMen.add(userID) ; 

} 

return ratesMoreMen; 


} 


return isFiltered(profileID) 


ras 为 NaN 
? Double.NaN : originalScore; 


public double rescore(long profileID, double originalScore) p 将 被 排除 的 档案 赋 
} 


public boolean isFiltered(long profileID) { 
return filterMen ? men.contains(profileID) : women.contains(profilelID) ; 


} 

} 

这 个 示例 代码 做 了 几 件 事情 。parseMenwomen ( ) 方 法 解析 genderdat 并 创建 了 两 个 档案 ID 集 
合 一 一 已 知 是 男性 的 档案 ID 和 已 知 是 女性 的 档案 ID。 解 析 独 立 于 任何 特定 的 GenderRescorez 
实例 之 外 , 因为 这 些 集合 会 被 多 次 重用 。ratesMoreMen () 方 法 用 来 决定 并 记 住 一 个 用 户 是 否 会 
更 多 地 对 男性 或 女性 档案 评分 。 这 些 结果 被 缓存 在 两 个 额外 的 集合 中 。 于 是 这 个 
GenderRescorer 的 实例 通过 rescore() 返 回 NaN, 或 从 isFiltered() 返 回 true, 很 容易 在 适 
当 情 况 下 排除 掉 男 性 或 女性 。 

这 应 该 对 推荐 的 质量 会 帮助 ,但 不 会 很 大 。 大 体 上 ， 对 男性 档案 评分 的 女性 已 经 被 推荐 了 男 
性 档案 ,因为 她 们 最 类 似 于 其 他 对 男性 档案 评分 的 女性 。 这 个 机 制 通过 从 结果 中 排除 女性 档案 来 
确保 这 一 点 。 这 会 让 推荐 程序 甚至 不 去 试图 估计 这 些 女 性 对 女性 档案 的 偏好 ， 因 为 这 种 估计 纯粹 
是 腾 测 ， 很 可 能 会 出 错 。 当 然 ， 这 个 IDRescorer 的 效果 受 限于 已 有 数据 的 质量 : 只 有 大 约 一 半 
档案 的 性 别 是 已 知 的 。 


5.3.5 ”封装 一 个 定制 的 推荐 程序 


对 于 我 们 而 言 ， 将 现 有 的 推荐 引 警 和 这 个 新 IDRescorer 封 装 在 一 个 实现 中 是 很 有 用 的 。 这 
RE, 我 们 可 以 在 5.5 节 部 署 一 个 完整 的 推荐 引擎。 
下 面 的 代码 清单 显示 了 一 个 推荐 程序 实现 ， 其 中 包含 了 前 面 所 讲 的 基于 用 户 的 推荐 引擎 。 


代码 清单 5-5 ”完成 面向 Libimseti 的 推荐 程序 


public class LibimsetiRecommender implements Recommender { 


private final Recommender delegate; 
private final DataModel model; 
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private final FastIDSet men; 

private final FastIDSet women; 

private final FastIDSet usersRateMoreMen; 
private final FastIDSet usersRateLessMen; 


public LibimsetiRecommender() throws TasteException, IOException { 
this (new FileDataModel ( 
readResourceToTempFile("ratings.dat")); 


} 在 生产 环境 下 需要 
readResourceToTempFile() 
public LibimsetiRecommender (DataModel model) 
throws TasteException, IOException { 
UserSimilarity similarity = 
new EuclideanDistanceSimilarity (model); 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(2, similarity, model); 
delegate = 
new GenericUserBasedRecommender (model, neighborhood, similarity) ; 
this.model = model; 
FastIDSet[] menWomen = GenderRescorer.parseMenWomen ( 
readResourceToTempFile("gender.dat")); 
men = menWomen[0]; 
women = menWomen[1]; 
usersRateMoreMen = new FastIDSet (50000) ; 
usersRateLessMen = new FastIDSet (50000); 


_ | 构建 基于 用 户 的 推荐 程序 


} 
public List<RecommendedItem> recommend(long userID, int howMany) 
throws TasteException { 
IDRescorer rescorer = new GenderRescorer ( 
men, women, userID, usersRateMoreMen, usersRateLessMen, 
userID, model); 


return delegate.recommend(userID, howMany, rescorer) ; 在 所 有 推荐 上 使 用 
GenderRescorer 


public List<RecommendedItem> recommend(long userID, 
int howMany, 


IDRescorer rescorer) 
throws TasteException { 


return delegate.recommend(userID, howMany, rescorer) ; 


} 


public float estimatePreference(long userID, long itemID) 
throws TasteException { 
IDRescorer rescorer = new GenderRescorer ( 
men, women, userID, usersRateMoreMen, usersRateLessMen, 
userID, model); 
return (float) rescorer.rescore( 重 算 估 计 偏 好 
itemID, delegate.estimatePreference(userID, itemID)); 
} 


public void setPreference(long userID, long itemID, float value) 
throws TasteException { 
delegate.setPreference(userID, itemID, value); 


} 委托 给 底层 的 推荐 程序 


public void removePreference(long userID, long itemID) 
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throws TasteException { 
delegate.removePreference(userID, itemID); 


public DataModel getDataModel() { 
return delegate.getDataModel (); 


public void refresh(Collection<Refreshable> alreadyRefreshed) { 
delegate.refresh(alreadyRefreshed) ; 


} 

这 是 一 个 小 而 完整 的 推荐 引擎 封装 。 如 果 对 它 进 行 评 估 ， 结 果 大 约 为 1.18 (这 实际 上 是 恒定 
不 变 的 )， 最 好 改 用 这 种 机 制 来 避免 一 些 有 严重 偏差 的 推荐 。 运 行 时 间 会 增加 到 500 ms 左右 一 一 
重 算 引 入 了 大 量 的 开销 。 对 于 我 们 的 目标 而 言 ， 这 一 折 中 是 我 们 可 以 接受 的 ， 而 
LibimsetiRecommender 下 是 这 个 约会 网 站 的 最 终 实现 。 


5.4 为 匿名 用 户 做 推荐 


当 你 创建 一 个 实用 化 的 推荐 程序 时 会 马上 遇 到 另 一 个 常见 问题 , 即 如 何 处 理 那 些 尚 未 注册 的 
用 户 。 例 如， 如 何 处 理 在 一 个 电子 商务 网 站 上 浏览 商品 的 新 用 户 ? 对 于 网 站 而 言 ,这 个 匿名 用 户 
既 没 有 浏览 记录 , 也 无 购买 历史 , 更 不 用 说 ID 号 了 ? 为 这 样 的 用 户 进行 推荐 的 问题 在 于 无 数据 可 
用 ， 故 而 称 为 冷 启动 问题 。 但 能 够 为 这 样 的 用 户 推荐 商品 也 是 有 用 的 。 

一 种 极端 的 方法 是 不 做 个 性 化 的 推荐 。 就 是 说 ， 当 面 对 一 个 新 用 户 时 ,提供 一 个 普通 的 产品 
预定 义 列 表 作 为 推荐 。 这 样 做 很 简单 ， 并 且 通 常 比 不 做 强 ,， 但 不 在 我 们 的 选择 之 列 。Mahout 所 关 
注 的 是 个 性 化 推荐 。 

另 一 个 极端 做 法 是 , 网 站 将 这 种 匿名 用 户 在 第 一 次 访问 时 就 升级 为 真实 用 户 ,赋予 其 一 个 ID， 
并 根据 网 络 会 话 来 跟踪 其 行为 。 这 也 有 效果 ， 虽然 这 会 法 在 地 导致 用 户 数 爆 发 式 增长 ， 但 不 难 想 
象 其 中 许多 用 户 永 远 不 会 再 来 且 已 有 的 信息 很 少 。 

后 者 也 不 是 我 们 寻找 的 选项 。 相 反 , 我 们 在 两 种 极端 做 法 之 间 寻 求 妥 协 方案 : 生成 临时 用 户 
并 将 所 有 的 匿名 用 户 当做 一 个 用 户 。 


5.4.1 利用 plusanonymousUserDataMode1 处 理 临 时 用 户 


通过 PlusAnonymousUserDataModel 类 , 这 个 推荐 程序 框架 提供 了 一 个 临时 增加 匿名 用 户 
的 信息 到 DataMode1 的 简单 方法 。 这 种 方法 将 匿名 用 户 视 为 真实 用 户 , 但 是 这 仅 适 用 于 进行 推荐 
的 时 候 。 真 实 的 底层 DataModel 中 不 会 增加 这 些 匿名 用 户 , 也 不 会 得 知 它们 的 存在 。 对 于 现 有 的 
DataModel 而 言 ，PlusAnonymousUserDataModel 是 在 其 上 的 一 个 封装 ， 可 以 简单 地 做 蔡 换 。 

PlusAnonymousUserDataModel 类 在 临时 用 户 的 处 理 上 有 一 个 特殊 的 地 方 ， 它 每 次 只 处 理 
一 个 此 类 用 户 的 偏好 值 。 基 于 这 个 类 的 Recommender 同 样 必须 一 次 只 处 理 一 个 匿名 用 户 。 

下 面 的 代码 清单 展示 了 LibimsetiwithAnonymousRecommender ， 它 扩展 了 先前 的 
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LibimsetiRecommender， 采 用 了 一 个 可 以 向 匿名 用 户 进行 推荐 的 方法 。 当 然 ， 
为 输入 ， 而 不 是 用 户 ID。 


代码 清单 5-6 ”Libimseti 上 的 匿名 用 户 推荐 


public class LibimsetiWithAnonymousRecommender 
extends LibimsetiRecommender { 


private final PlusAnonymousUserDataModel plusAnonymousModel ; 


public LibimsetiWithAnonymousRecommender () 
throws TasteException, IOException { 
this(new FileDataModel ( 
readResourceToTempFile("ratings.dat"))); 


} 


public LibimsetiWithAnonymousRecommender (DataModel model) 


它 取 偏好 值 作 


throws TasteException, IOException { 封装 底层 的 DataMode1l 


super (new PlusAnonymousUserDataModel (model)); 
plusAnonymousModel = 
(PlusAnonymousUserDataModel) getDataModel () ; 
} 


I 使 用 同步 


public synchronized List<RecommendedItem> recommend ( 
PreferenceArray anonymousUserPrefs, int howMany) 
throws TasteException { 
plusAnonymousModel .setTempPrefs (anonymousUserPrefs) ; 
List<RecommendediItem> recommendations = 


recommend (PlusAnonymousUserDataModel .TEMP_USER_ID, | 设置 匿名 用 户 的 ID 


howMany, null); 
plusAnonymousModel.clearTempPrefs() ; 
return recommendations; 


} 


public static void main(String[] args) throws Exception { 
PreferenceArray anonymousPrefs = 
new GenericUserPreferenceArray (3) ; 


anonymousPrefs.setUserID(0, “| 存储 匿名 用 户 的 偏好 值 


PlusAnonymousUserDataModel .TEMP_USER_ID) ; 
anonymousPrefs.setItemID(0, 123L); 
anonymousPrefs.setValue(0, 1.0f); 
anonymousPrefs.setItemID(1, 123L); 
anonymousPrefs.setValue(1, 3.0f£); 
anonymousPrefs.setItemID(2, 123L); 
anonymousPrefs.setValue(2, 2.0f); 
LibimsetiWithAnonymousRecommender recommender = 

new LibimsetiWithAnonymousRecommender () ; 
List<RecommendediItem> recommendations = 

recommender .recommend(anonymousPrefs, 10); 
System. out.println(recommendations) ; 

} 
// veadResourceToTempFileX Ma 2A 
// ERETTI 


另外 ， 这 个 实现 和 任何 其 他 推荐 程序 一 样 工作 ， 也 可 以 用 于 向 真实 用 户 进 行 推荐 。 
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542 ”聚合 匿名 用 户 


还 可 以 将 所 有 的 匿名 用 户 视 为 单一 用 户 , 这 会 简化 操作 。 不 再 分 别 跟踪 潜在 的 用 户 并 单独 存 
储 他 们 的 浏览 历史 , 你 可 以 将 所 有 这 样 的 用 户 看 做 一 个 大 的 临时 用 户 。 但 这 依赖 于 一 种 假设 ， 即 
所 有 这 些 用 户 的 行为 是 相似 的 。 

在 任何 时 候 ， 这 个 技术 都 可 以 为 匿名 用 户 生成 推荐 ， 并 非常 迅速 。 事 实 上 ， 因 为 结果 对 于 所 有 
的 匿名 用 户 都 是 一 样 的 , 推荐 结果 的 集合 可 以 被 存储 并 周期 性 地 重 算 , 而 不 是 每 次 请 求 都 计算 一 次 。 
在 某 种 意义 上 ， 这 种 变化 比 根本 不 做 个 性 化 推荐 略 好 ， 从 而 避免 匿名 用 户 总 是 看 到 固定 的 推荐 。 


5.5 创建 一 个 支持 Web 访问 的 推荐 程序 


问题 不 仅仅 是 创建 一 个 在 IDE 环 境 中 运行 的 推荐 程序 ， 而 是 要 把 推荐 程序 部 署 在 真实 的 产品 
应 用 中 。 

你 也 许 打算 在 Java 和 Mahout 中 设计 并 测试 好 推荐 程序 , 然后 将 其 作为 一 个 应 用 架构 中 单独 的 
组 件 进行 部 署 ， 而 不 是 将 它 舱 入 到 应 用 的 Java 代 码 中 。Web 服 务 通 常 使 用 ie SOAP 
之 类 的 Web 服 务 协 议 。 在 这 里 ， 推 荐 程序 部 署 为 一 个 Web 上 可 见 的 服务 ,或 者 是 一 个 Web 容 器 中 
的 独立 组 件 ， 甚至 作为 自己 的 服务 进程 。 这 增加 了 复杂 性 , 但 会 让 这 个 服务 可 以 由 基于 其 他 语言 
编写 或 者 运行 在 其 他 机 器 上 的 应 用 来 访问 。 

好 在 利用 Mahout 很 容易 将 推荐 程序 捆绑 成 可 部 署 的 WAR( Web archive ) 文件 。 这 一 组 件 能 够 
很 好 地 部 署 在 Java servlet 容 器 中 , 如 Tomcat( http://tomcat.apache.org/ ) 或 Resin ( http://www.caucho. 
com/resin/ )。 如 图 5-3 所 示 ， 该 WAR 文 件 封装 了 Recommender 实 现 , 通过 RecommenderServlet 这 
个 简单 的 、 基 于 servlet 的 HTTP 服 务 开放 出 来 ， 并 基于 HTTP 的 SOAP 协 议 成 为 Apache Axis 所 支持 
的 Web 服 务 RecommenderService。 


HTTP GET 


SOAP over HTTP 


Servlet 容 器 


图 5-3 ”推荐 程序 的 自动 化 WAR 封 装 及 在 servelet 容 器 中 的 部 署 
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5.5.1 封装 WAR 文 件 


在 部 署 之 前 ， 需 要 把 编译 后 的 代码 和 数据 文件 打包 为 一 个 JAR 文 件 。 在 IDE 中 编译 好 这 段 代 
人 码 ， 进 入 本 书 的 示例 目录 ， 然 后 复制 数据 集 里 的 ratings.dat 和 gender.dat 文 件 到 /src/main/resources 
目录 下 ， 再 用 下 面 的 命令 制作 出 JAR 文 件 : 

mvn package 
这 条 命令 会 将 结果 放 人 target/mia-0.1.jar 文 件 中 。 

然后 进入 Mahout 发 布 包 中 的 taste-web/ 模 块 目 录 ， 并 从 书 中 示例 把 target/mia-0.1.jar 复 制 到 lib/ 
子 目 录 中 。 再 编辑 recommender.properties 将 推荐 程序 命名 为 所 要 采用 的 名 称 。 如 果 你 使 用 的 是 与 
示例 相同 的 Java 包 名 ， 正 确 的 值 应 为 mia.recommender.ch05.LibimsetiRecommender。 

现在 再 次 执行 mvn package 。 你 会 在 target/ 子 目录 下 发 现 一 个 名 为 mahout-taste- 
webapp-0.5.war 的 文件 ( 文件 的 版 本 号 可 能 会 不 同 ， 当 你 读 这 本 书 时 ，Mahout 应 该 已 经 发 布 了 新 
的 版 本 ), 这 个 文件 很 适合 立刻 部 署 在 Tomcat 这 样 的 servlet 容 器 中 ,事实 上 , 它 可 以 直接 放 和 人 Tomcat 
的 webapps/ 目 录 而 无 须 做 进一步 的 修改 ， 从 而 形成 一 个 可 工作 的 基于 Web 的 推荐 程序 实例 。 


注意 这 个 .war 文 件 的 名 称 将 成 为 访问 服务 时 所 用 URL 的 一 部 分 ， 你 可 以 对 它 重 命名 使 之 更 短 ， 


4emahout.war. 


5.5.2 ”测试 部 署 


还 有 一 种 办 法 可 以 让 你 在 不 安装 Tomcat 的 情况 下 轻松 测试 包含 推荐 程序 的 Web 应 用 ,即使 用 
Maven 中 内 置 的 Jetty 插 件 。Jetty ( http://www.mortbay.org/jetty/):— Mm A servlet 48, HO AK 
与 Tomcat 和 Resin 类 似 。 

在 进行 测试 部 署 之 前 ,你 需要 确保 本 地 的 Mahout 安 装 包 已 经 编译 好 并 可 为 Maven 使 用 。 在 顶 
级 Mahout 目 录 下 执行 mvn install, 然后 可 以 去 喝 杯 咖啡 休息 一 会 儿 ， 此 时 Maven 会 下 载 其 他 依 
赖 包 、 编 译 并 运行 测试 ， 大 概 需 花费 10 分 钟 的 时 间 。 好 在 这 件 事 只 需 做 一 次 。 

按照 之 前 章节 所 述 将 WAR 文 件 封 装 好 ,执行 export MAVEN_OPTS=-Xmx2048m 来 确保 Maven 
和 Jetty 有 足够 的 堆 空 间 。 然 后 ， 在 taste-web/ 目 录 下 执行 mvn jetty:run-war。 这 会 在 本 地 机 器 
的 8080 端 口上 启动 一 个 支持 Web 的 推荐 服务 。 启 动 会 花 上 一 些 时 间 ， 因为 Mahout 要 装载 和 分 析 数 
据 文件 。 

通过 Web 浏 览 器 访问 http://localhost:8080/RecommenderServlet?userID=3 就 可 以 得 到 对 用 户 ID 
3 的 推荐 。 这 正 是 外 部 应 用 从 推荐 引 警 中 获得 推荐 的 方法 ， 即 向 这 个 URL 发 送 一 个 HTTP 的 GET 请 
求 , 从 返回 的 简单 文本 中 解析 出 推荐 结果 : 每 行 有 一 个 估计 的 偏好 值 和 一 个 物品 ID, 优先 的 推荐 
排 在 前 面 ( 如 代码 清单 5-7 所 示 )。 
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代码 清单 5-7 对 RecommenderServlet 发 出 GET 请 求 的 输出 结果 


10.0 205930 
iD 156148 
8.0 162783 
135 208304 
7:5 143604 
7.0 210831 
7.0 173483 
4.5 163100 


要 探究 更 正式 的 基于 SOAP 的 那些 Web 服 务 API， 请 访问 http:/Wlocalhost:8080/Recommender 
Service.jws?wsdl 查 看 WSDL ( Web Services Definition Language ) 文件 ， 它 定义 了 这 个 Web 服 务 的 
输入 和 输出 。 这 是 Recommender API 的 一 个 简化 版 本 。 这 个 Web 服 务 描述 文件 可 以 为 大 多 数 Web 
服务 客户 端 所 用 ， 以 自动 理解 并 提供 对 该 API 的 访问 。 

如 果 你 想 直 接 在 浏览 器 中 访问 这 个 服务 ， 可 以 访问 http://localhost:8080/RecommenderService. 
jws?method=recommend&useID=1&howMany=10 查 看 这 个 服务 基于 SOAP 的 返回 结果 。 返 回 的 结 
果 集 是 相同 的 ， 只 是 显示 为 一 个 SOAP 响 应 ( 见 图 5-4 )。 


~ <soapenv:Body> | 
~ <recommend Response soapenviencedingStyle="http://schemas xmisoap org/soap/encoding/"> | 
~ <recommend Return soapenctarrayType="xsd:string[}[10]" xsitype="soapenc:Array"> | 
— <recommend Return soapenc:arrayType="xsd:string[2]" xsistype="soapenc: Array"> 
<recommend Return xsi:type="xsd:string ">10.0</recommendReturn> 
<recommendReturn xsittype=" xsd:string ">220429</recommend Return> 
</recommendReturn> | 
~ <recommend Return soapenc:arrayType="xsd:string[2|" xsi:type="soapenc:Array"> | 
<recommend Return xsitype="xsd:string "> 10.0</recommendReturn> | 
<recommend Return xsi:type="xsdistring "> 174211</recommendReturn> ， 
</recommendReturn> 


ssh het cei tts hme ssi settee 


图 5-4 来 自 RecommenderService 的 SOAP 响 应 在 浏览 器 中 的 显示 


通常 此 时 你 会 理性 地 检查 这 些 推荐 结果 。 站 在 用 户 的 立场 上 , 这 些 推荐 是 不 是 合理 的 ? 然 
而 ， 我 们 在 这 里 无 法 知道 用 户 是 谁 ， 以 及 他 们 喜欢 什么 样 的 档案 ， 故 而 无 法 对 结果 做 出 直观 的 
评判 。 当 你 自己 开发 推荐 引擎 时 ， 事 情 就 不 再 是 这 般 场 景 了 ， 那 时 看 一 下 实际 的 推荐 结果 就 会 
发 现 问题 或 找到 有 待 改 进 的 地 方 。 往 往 需要 许多 轮 的 试验 和 修正 ， 我 们 才能 使 结果 成 为 解决 问 
题 的 最 佳 答案 。 


5.6 更 新 和 监控 推荐 程序 


现在 你 已 经 运行 起 来 一 个 基于 Web 的 推荐 服务 , 但 是 它 并 非 一 个 一 成 不 变 的 系统 ， 并 非 运行 
起 来 就 可 以 不 管 。 这 是 一 个 动态 的 服务 器 , 实时 地 接收 新 的 信息 并 返回 应 答 , 并且 就 像 所 有 的 生 
产 系统 一 样 ， 我 们 自然 要 考虑 如 何 更 新 和 监控 这 个 服务 。 

当然 , 在 一 个 真实 的 推荐 系统 中 ,推荐 所 依据 的 数据 总 在 不 断 改变 。 标准 的 DataModel 实 现 


- <soapeny:Envelope> | 
$ 
| 
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会 自动 使 用 来 自 底层 数据 源 的 最 新 数据 , 因此 在 上 层 无 须 做 特别 处 理 就 可 以 让 推荐 引擎 处 理 新 的 
数据 。 例 如 ， 假 如 你 通过 rzpBcpataMode1 让 推荐 引擎 处 理 数 据 库 中 的 数据 ， 那 么 只 需 将 新 的 数 
据 更 新 到 底层 数据 库 表 中 ， 推 荐 引擎 就 会 开始 使 用 这 些 数据 。 

但 是 出 于 对 性 能 的 考虑 ， 许 多 组 件 会 缓存 信息 和 中 间 的 计算 结果 。 这 些 缓存 最 终 会 被 更 新 ， 
但 这 意味 着 新 的 数据 不 会 立即 影响 推荐 结果 。 可 以 调用 Recommender .refresh () 来 强制 清空 所 
有 的 缓存 ， 也 可 以 通过 调用 refresh 方 法 来 实现 ,该 Web 应 用 在 基于 SOAP 的 接口 上 开放 了 这 个 
方法 。 有 必要 时 ， 还 可 以 由 企业 应 用 系统 中 的 其 他 部 分 来 调用 。 

需要 特别 关注 基于 文件 的 偏好 数据 ， 它 是 通过 FileDataModel 来 访问 的 。 在 部 署 更 新 的 信 
息 时 ， 我 们 可 以 对 这 个 文件 进行 更 新 或 覆盖 ， 而 FilepataMode1 会 马上 注意 到 这 个 更 新 ， 并 重 
新 加 载 这 个 文件 。 

数据 文件 的 重新 加 载 过 程 会 非常 慢 上 且 很 耗 内 存 , 因为 旧 模型 和 新 模型 会 同时 占用 内 存 。 这 时 
正好 可 以 用 到 第 3 章 中 的 更 新 文件 (update file )。 不 是 对 这 个 主 数据 文件 进行 替换 或 更 新 ， 更 有 
效 的 方式 是 增加 表示 近期 更 新 的 更 新 文件 。 更 新 文件 就 像 是 diffs ， 在 与 主 数据 文件 放 在 同一 目录 
中 并 以 适当 的 形式 命名 时 ， 它 们 就 会 被 检测 到 ， 并 迅速 成 为 偏好 数据 的 内 存 表示 。 

例如 , 一 个 应 用 可 能 每 个 小 时 都 会 定位 所 有 在 上 一 个 小 时 或 更 长 时 间 内 生成 的 、 删 除 的 或 修 
改 的 偏好 数据 ， 由 此 生成 一 个 更 新 文件 ,并 把 它 和 主 数 据 文件 放 在 一 起 。 如 前 所 述 ， 所 有 这 些 文 
件 还 应 被 压缩 以 提高 效率 。 

可 以 直观 地 监测 推荐 服务 的 健康 状态 ， 即 使 这 并 不 属于 Mahout 自 身 的 范畴 。 只 要 可 以 通过 
HTTP 访 问 来 检查 Web 服 务 的 健康 状态 ， 任 何 监测 工具 都 可 以 用 :访问 该 服务 的 URL 并 确认 返回 结 
果 是 否 有 效 ， 这 样 就 能 够 检查 这 个 推荐 服务 是 否 还 有 效 。 同 时 ， 这 样 的 工具 可 以 〈 也 应 该 能 够 ) 
检测 到 应 答 请 求 的 时 间 , 并 在 性 能 突然 下 降 时 报警 。 一 般 而 言 , 一 次 推荐 所 需 的 计算 时 间 是 固定 
的 ， 不 会 有 很 大 的 变化 。 


5.7 小结 


在 本 章 ， 我 们 深入 观察 了 取 自 Czech 约 会 网 站 Libimseti 的 一 个 真实 的 大 型 数据 集 。 它 提供 了 
超过 10 万 个 用 户 对 10 万 个 以 上 档案 的 1700 万 个 评分 。 我 们 致力 于 为 这 个 网 站 创建 一 个 推荐 程序 ， 
让 它 能 够 为 网 站 的 用 户 推荐 档案 或 者 是 人 。 

我 们 在 这 个 数据 集 上 尝试 了 至 今 所 见 的 大 多 数 推荐 方法 , 并 努力 通过 评估 技术 选 出 一 个 看 似 
能 够 生成 最 佳 推荐 的 实现 : 基于 用 户 的 推荐 程序 , 它 使 用 基于 欧 氏 距离 的 相似 性 度量 , 并 将 邻 域 
大 小 设 定 为 2。 

之 后 , 我 们 尝试 在 推荐 中 引入 数据 集中 的 附加 信息 ， 即 用 户 的 性 别 , 这 是 许多 档案 都 具有 的 
特征 。 我 们 试图 基于 这 个 数据 生成 一 个 基于 物品 的 相似 性 度量 。 我 们 初 识 了 IDRescorer 接 口 ， 
这 是 一 个 实用 的 工具 ， 可 以 针对 特定 的 问题 域 修正 结果 。 我 们 利用 IDRescorer 纳 入 对 性 别 的 考 
虑 ， 据 此 排除 那些 用 户 不 会 感 兴趣 的 推荐 ， 在 一 定 程度 上 改进 了 推荐 质量 。 

因为 测 得 的 性 能 是 可 以 接受 的 (每 次 推荐 约 500 ms), 我 们 便 架 构 了 一 个 推荐 引擎 的 可 部 署 
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版 本 , 并 使 用 Mahout 为 它 自动 生成 了 一 个 支持 Web 的 应 用 。 我 们 简要 地 考察 了 如 何 部 署 以 及 如 何 
通过 HTTP 和 SOAP 来 访问 这 个 组 件 。 

最 后 ， 我 们 审视 了 如 何在 运行 时 更 新 推荐 程序 的 底层 数据 。 

我 们 从 数据 一 直 讨论 到 可 用 于 生产 环境 的 推荐 服务 ， 到 此 就 算 告 一 段落 了 。 这 个 实现 能 
够 在 单机 上 轻松 自如 地 处 理 拥 有 1700 万 份 评分 的 数据 集 ， 并 能 实时 地 生成 推荐 。 但 是 ， 如 果 
数据 超过 了 单机 的 承载 能 力 又 如 何 呢 ? 下 一 章 ， 我 们 会 考察 如 何 基 于 Hadoop 处 理 大 得 多 的 数 
据 集 。 


分 布 式 推 在 


本 章 内 容 

口 分 析 来 自 维 基 百 科 的 海量 数据 集 

口 使 用 Hadoop 和 分 布 式 算法 生成 推荐 结果 

口 将 现 有 非 分 布 式 推荐 程序 改 为 伪 分 布 式 推荐 程序 


本 书 所 用 的 大 数据 集 不 断 增长 : 偏好 条 目 从 10 个 、10 万 个 到 1000 万 个 不 等 ， 甚 至 达到 1700 
万 个 。 但 对 于 推荐 程序 而 言 ， 这 种 数据 集 还 只 能 算是 中 等 规模 。 本 章 将 采用 维基 百科 上 文章 之 间 
的 链接 所 构成 的 海量 实体 ， 处 理 一 个 具有 1.3 亿 个 偏好 的 更 大 数据 集 。 "在 这 个 数据 集中 ,文章 既 
是 “用 户 ” 又 是 物品 ， 用 于 展示 在 非 传统 场景 中 如 何 通过 Mahout 使 用 推荐 程序 。 

虽然 示范 所 用 的 1.3 亿 个 偏好 的 规模 尚 在 可 控 范 围 之 内 ， 但 使 用 现 有 方法 在 单机 上 处 理 如 此 
大 的 数据 集 仍 有 难度 。 推 荐 算法 蝇 待 革 新 ， 即 需要 借助 于 Mahout 所 采用 的 MapReduce 范 式 和 
Apache Hadoop 实 现 分 布 式 计算 。 

我 们 先 审 视 Wikipedia 数 据 集 , 来 理解 把 一 个 推荐 计算 变 为 分 布 式 计算 意味 着 什么 。 考 虑 到 与 
非 分 布 式 实 现存 在 明显 差异 ,我们 先 学 习 如 何在 分 布 式 环境 中 设计 一 个 简单 的 分 布 式 推荐 系统 。 
你 还 将 看 到 如 何 基于 MapReduce 和 Hadoop 在 Mahout 中 实现 它 。 最 后 , 你 将 首次 尝试 运行 一 个 完整 
的 、 基 于 Hadoop 的 推荐 作业 ， 并 最 后 得 到 结果 。 


6.1 分 析 Wikipedia 数据 集 


我 们 以 考察 Wikipedia 数 据 集 为 起 点 , 但 之 后 的 论述 有 所 不 同 ; 受到 数据 规模 问题 的 影响 , 像 
以 前 一 样 进行 论述 很 困难 ， 我 们 不 得 不 先 探 讨 计 算 的 分 布 问 题 。 

维基 百科 (Wikipedia, http://wikipedia.org ) 是 一 个 著名 的 在 线 百 科 全 书 ， 其 内 容 可 由 用 户 编 
辑 和 维护 。 据 报道 ， 它 在 2010 年 5 月 时 仅 英 文 文章 就 超过 320 万 篇 。Freebase Wikipedia Extraction 
项 目 (http://download.freebase.com/wex/ ) 估计 仅 英文 文章 的 大 小 就 接近 42 GB。 维 基 百 科 是 基于 


O 看 过 早期 草稿 的 读者 会 记得 本 章 以 前 用 的 是 Netflix Prize 数 据 集 。 由 于 法 律 原 因 , 那个 数据 集 已 经 不 再 通过 官方 发 
布 ， 因 此 不 再 适合 用 作 样 本 数据 集 了 。 
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Web 的 ， 其 文章 一 定 会 链接 到 另外 一 篇 文章 。 我 们 要 关注 的 就 是 这 些 链 接 。 我 们 将 文章 视 为 “用 
户 ”， 把 一 篇 文章 所 指向 的 文章 视 为 该 源 文章 所 喜欢 的 物品 。 

幸运 的 是 ， 不 必 下 载 Freebase 的 Wikipedia 来 提取 并 解析 出 所 有 这 些 链接 。Henry Haselgrove 
已 经 把 文章 中 的 链接 提取 好 并 发 布 在 http:Wusers.on.net/~henry/home/wikipedia.htm。 它 进一步 提取 
出 对 附属 资源 的 链接 ， 如 文章 讨论 页 、 图 像 等 。 该 数据 集 还 采用 数字 化 的 ID 号 来 表示 文章 ， 而 不 
是 文章 的 标题 ， 这 很 有 帮助 ， 因 为 Mahout 将 所 有 用 户 和 物品 视 为 数字 化 的 ID。 

首先 , 从 Haselgrove 的 网 站 上 下 载 并 提取 links-simple-sorted.zip 文 件 。 这 个 数据 集 包含 从 5 706 070 
篇 文章 到 另外 3 773 865 篇 文章 的 130 160 392 个 链接 。 注 意 ， 这 里 没有 显 式 的 偏好 或 评分 ， 只 有 从 
文章 到 文章 的 关联 。 这 就 是 布尔 型 偏好 。 关 联 是 单 向 的 ， 存 在 一 个 从 A 到 B 的 链接 并 不 代表 从 B 
到 A 会 有 任何 关联 。 物 品 并 不 会 远 远 多 于 用 户 ， 反 之 亦 然 ,无论 基于 用 户 还 是 基于 物品 的 算法 在 
性 能 上 都 不 会 更 优 。 如 果 我 们 使 用 涉及 相似 性 评估 的 算法 ,最 好 选择 一 个 不 依赖 于 偏好 值 的 ， 比 
如 LogLikelihoodasimilarityo 

这 些 数据 表面 的 意义 是 什么 呢 ? 可 以 得 到 什么 合理 的 推荐 结果 呢 ? 文章 A 到 B 的 链接 意味 着 
B 提 供 了 与 A 有 关 的 信息 , 通常 是 提供 了 A 所 引用 事实 或 想法 的 背景 信息 。 基 于 这 些 数据 ,推荐 系 
统 向 A 推荐 的 文章 依赖 于 其 他 文章 的 指向 ， 这 些 文章 即 指向 推荐 文章 ， 也 指向 A 所 指向 的 部 分 文 
章 。 推 荐 文章 可 被 视 为 A 应 该 链接 但 未 做 链接 的 ， 它 们 应 该 也 是 A 的 读者 所 感 兴趣 的 文章 。 有 些 
时 候 ， 推 荐 会 揭示 有 趣 或 偶然 的 关联 ， 甚 至 是 文章 A 没 有 暗示 的 。 


6.1.1 挑战 规模 


用 一 个 非 分 布 式 的 推荐 引擎 来 处 理 这 些 数据 是 很 困难 的 。 在 Mahout 上 ，, 该 数据 自身 就 占用 
了 大 约 2 GB 的 堆 空 间 ， 总 共 的 堆 空 间 大 致 需要 2.5 GB。 在 一 些 32 位 的 平台 和 JVM 上 ， 这 实际 上 
已 经 突破 了 可 用 堆 空 间 大 小 的 上 限 ， 用 不 了 多 久 我 们 就 需要 用 64 位 的 机 器 。 根 据 算法 的 不 同 ， 
推荐 时 间 可 能 会 超过 1 s， 对 于 一 个 支持 现代 Web 应 用 的 实时 推荐 引擎 而 言 ， 这 可 是 一 个 很 长 的 
时 间 。 

当 硬 件 资 源 充足 时 ,性 能 尚 可 接受 。 但 如 果 输 入 增长 为 几 十 亿 个 偏好 , 堆 空间 需求 超过 32 GB, 
该 怎么 办 呢 ? 以 后 进一步 扩展 呢 ? 有 时 ， 可 以 丢弃 “噪声 ”数据 来 减少 数据 大 小 ， 以 对 抗 规模 问 
题 。 但 是 判断 什么 是 噪声 ， 这 本 身 就 是 一 个 精度 和 规模 的 问题 。 

当前 ， 如 果 无 法 处 理 超过 一 定 规模 的 数据 , 使 系统 处 理 能 力 存在 无 法 突破 的 瓶颈 ,可 不 是 什 
么 时 晓 的 事情 。 我 们 已 经 能 够 得 到 海量 的 计算 资源 , 这 里 的 问题 是 如 何 把 足够 的 计算 资源 集中 在 
一 起 。 相 比 于 把 更 多 小 型 机 器 攒 起 来 ， 更 大 的 机 器 会 带 来 高 昂 的 成 本 。 这 个 庞大 的 单机 还 会 带 来 
单 点 失效 问题 。 而且, 在 推荐 引擎 处 理 过 程 之 外 , 很 难 找到 一 种 有 效 的 方式 充分 利用 这 台 单 机 的 
昂贵 处 理 能 力 。 

Wikipdia 链 接 数 据 集 的 大 小 代表 一 个 实用 的 规模 上 限 ， 它 代表 一 个 基于 Mahout、 非 分 布 式 、 
实时 的 推荐 程序 在 一 个 硬件 还 不 错 的 服务 器 上 可 以 处 理 多 大 的 数据 一 一 而 且 这 个 机 器 用 当前 的 
标准 来 衡量 也 不 算 太 庞大 。 超 过 这 个 上 限 ， 就 该 用 新 的 办 法 了 。 


6.1.2 分布 式 计算 的 优 缺 点 


鉴于 这 些 使 用 单 台 大 机 器 的 不 合理 性 ， 我 们 的 解决 方案 采用 许多 小 型 机 器 "， 而 不 是 一 台大 家 
伙 。 在 一 个 机 构 中 , 可 能 有 许多 小 型 机 器 没有 被 充分 利用 , 我 们 可 以 用 它们 额外 的 能 力 来 计算 推荐 ， 
如 图 6-1 所 示 。 而 且 ， 现 在 可 以 通过 云 计算 提供 商 ， 如 亚马逊 的 EC2 服 务 ( http://aws.amazon.com ), 
来 获得 许多 机 器 资源 。 


图 6-1 分 布 式 计算 将 一 个 对 单 台 服 务 器 过 大 的 问题 进行 拆 分 ,使 之 可 以 通 
过 几 个 小 服务 器 来 处 理 


将 推荐 进行 分 布 式 计算 彻底 改变 了 推荐 引擎 的 这 个 问题 。 迄今 为 止 , 每 种 计算 推荐 的 算法 在 理 
论 上 都 可 视 为 基于 每 个 偏好 值 的 函数 。 为 了 从 Wikipedia 链 接 数 据 集中 为 某 篇 文章 推荐 一 个 新 的 链 
接 , 推荐 算法 就 要 访问 所 有 文章 到 文章 的 链接 ,因为 任何 链接 对 计算 都 会 是 有 用 的 。 但 是 在 规模 很 
大 时 , 无 法 一 次 访问 所 有 数据 ,即便 是 一 次 访问 大 部 分 数据 也 是 不 可 能 的 。 所 有 我 们 至 今 已 经 看 到 
的 方法 都 失效 了 ,至少 从 它们 当前 的 状态 来 看 是 这 样 的 。 分 布 式 推荐 引擎 的 计算 是 一 个 全 新 的 事物 。 

要 澄清 一 点 ， 分 布 式 计 算 并 不 会 使 计算 更 为 有 效 。 相 反 ， 它 通常 会 耗费 更 多 的 资源 。 例 如 ， 
在 许多 小 型 机 器 之 间 移 动 数据 会 消耗 网 络 资源 。 这 种 计算 必然 会 涉及 对 许多 中 间 结 果 的 计算 和 存 
储 , 这 样 就 需要 大 量 的 处 理 时 间 来 做 序列 化 、 存 储 并 在 之 后 做 反 序列 化 。 为 了 协调 这 些 操作 ， 软 
件 会 消耗 不 少 的 内 存 和 处 理 资源 。 

需要 注意 , 如 此 庞大 的 分 布 式 计算 必然 为 离线 处 理 ， 而 不 是 实时 地 响应 用 户 请 求 。 即 便 是 很 
小 的 计算 在 这 种 形式 下 都 需要 花费 好 几 分 钟 才能 完成 ,， 而 不 是 几 毫 秒 那么 短 的 时 间 。 通常 ,在 运 
行 态 下 的 推荐 每 间隔 一 段 时 间 会 重新 计算 、 存 储 并 将 结果 返回 给 用 户 。 

但 它们 提供 了 一 种 途径 , 让 推荐 引擎 的 计算 规模 得 以 扩展 , 解决 了 一 个 非 分 布 式 计算 因 受 限 
于 单机 资源 而 无 法 启动 的 问题 。 分 布 式 计算 可 以 利用 许多 机 器 的 资源 ， 从 而 将 现 有 机 器 上 空闲 、 
未 被 使 用 的 资源 整合 起 来 ,而 不 是 使 用 固定 的 机 器 资源 。 最 终 , 分 布 式 计算 可 以 让 计算 过 程 更 快 
完成 一 一 即便 它 可 能 会 耗费 更 多 原始 的 处 理 时 间 。 假设 一 个 分 布 式 计算 与 非 分 布 式 计算 相 比 用 去 
了 两 倍 的 CPU 时 间 。 如 果 10 个 CPU 来 处 理 这 个 计算 , 它 就 会 比 仅 用 单个 机 器 资源 的 非 分 布 式 计 算 
快 上 5 倍 。 


D “小 型 机 器 ”原文 为 “small machine"， 指 的 是 商用 计算 机 ， 如 PC 服务 器 等 。 一 一 译 者 注 
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6.2 设计 一 个 基于 物品 的 分 布 式 推荐 算法 


对 于 这 种 规模 的 问题 , 分 布 式 生成 推荐 结果 是 合适 而 且 必 要 的 。 之 前 我 们 已 经 对 基于 物品 的 
推荐 程序 有 所 了 解 ， 下 面 会 先 勾勒 出 它 的 一 个 分 布 式 形态 。 它 看 上 去 会 有 点 儿 像 基 于 物品 的 非 分 
布 式 推荐 程序 ， 但 既然 非 分 布 式 算法 无 法 完全 转换 到 分 布 式 领域 ， 它 必然 有 所 不 同 。 


6.2.1 构建 共 现 矩阵 


算法 可 以 通过 简单 的 矩阵 运算 来 完美 地 表达 与 实现 。 如 果 你 只 是 几 年 前 在 数学 课本 上 接触 过 
矩阵， 不 要 担心 ， 只 需要 回忆 一 下 矩阵 的 乘 运 算 即 可 。 这 里 不 会 用 到 行列 式 、 行 归 约 或 特征 值 。 

回顾 之 前 介绍 过 的 基于 物品 的 推荐 引擎 ， 它 们 均 依赖 于 一 个 名 为 Ttemsimilarity 的 实现 ， 
它 给 出 了 计算 任意 一 对 物品 之 间 相 似 度 的 方法 。 假设 我 们 要 计算 出 每 个 物品 对 之 间 的 相似 性 , 并 
将 其 结果 导入 一 个 巨大 的 矩阵 。 这 应 该 是 一 个 方 阵 , 行 和 列 的 数目 等 于 数据 模型 中 的 物品 数 。 每 
行 ( 以 及 每 列 ) 表达 在 一 个 特定 物品 和 所 有 其 他 物品 之 间 的 相似 性 。 事 实 上 ， 把 这 些 行 和 列 看 做 
向 量 会 有 助 于 理解 。 该 矩阵 还 是 沿 对 角 线 对 称 的 ,因为 物品 X 和 Y 之 间 的 相似 性 与 物品 Y 和 X 之 间 
的 相似 性 是 一 样 的 ， 所 以 行 X 和 列 Y 上 的 条 目 也 会 等 于 在 行 Y 和 列 X 上 的 条 目 。 


注意 这 个 纸 阵 描述 了 物品 之 间 的 关联 ， 而 不 涉及 用 户 。 这 并 非 是 一 个 用 户 -物品 矩阵 。 那 种 憩 
阵 不 会 是 对 称 的 ; 其 行 数 和 列 数 与 用 户 和 物品 的 数量 匹配 ， 但 并 不 相同 。 


有 这 样 一 种 矩阵 是 算法 所 需要 的 : SE LAE (co-occurrence matrix )。 它 不 是 计算 每 个 物品 对 
之 间 的 相似 性 , 而 是 计算 在 某 些 用 户 偏好 值 列表 中 每 个 物品 对 共同 出 现 的 次 数 , 以 此 来 填充 矩阵 。 
例如 ， 如 果 有 9 个 用 户 都 为 物品 X 和 Y 给 出 了 一 些 偏好 ， 那么 X 和 Y 同 时 出 现 了 9 次 。 两 个 在 任何 用 
户 偏好 中 均 未 同时 出 现 的 物品 ， 其 共 现 次 数 为 0。 而 且 ， 在 概念 上 ， 每 当 用 户 给 出 对 某 个 物品 的 
偏好 ， 就 代表 该 物品 与 自身 共生 了 一 次 ， 不 过 这 个 计数 并 没有 什么 用 。 

共 现 关系 与 相似 性 很 像 : 两 个 物品 同时 出 现 得 越 多 ,它们 越 有 可 能 相关 或 相似 。 共 现 和 矩阵 的 
作用 类 似 于 基于 物品 的 非 分 布 式 算法 中 的 Ttemsimilarity。 

做 简单 的 计数 就 可 以 生成 这 个 矩阵 。 只 是 要 注意 矩阵 中 的 条 目 不 受 偏好 值 的 影响 。 这 些 值 稍 
后 会 参与 计算 。 表 6-1 给 出 了 对 一 个 小 的 偏好 值 样本 集 生 成 的 共 现 矩阵 ， 这 个 偏好 值 集合 在 本 书 
中 已 多 次 用 到 。 


表 6-1 ”一 个 简单 数据 集中 的 物品 共 现 矩 阵 。 首 行 首 列 为 行列 名 ， 不 是 矩阵 值 


不 出 意外 ， 该 矩阵 是 对 角 线 对 称 的 。 因 为 有 7 个 物品 ， 所 以 矩阵 为 7 x 7 的 方 阵 。 对 角 线 上 的 
值 对 算法 没有 意义 ， 但 是 出 于 对 完整 性 的 考虑 也 被 包含 进来 。 


6.2.2 ”计算 用 户 向 量 


在 推荐 程序 向 一 个 基于 和 矩阵 的 分 布 式 实现 转换 的 下 一 步 , 我 们 将 一 个 用 户 的 偏好 视 为 一 个 问 
Ho 我 们 之 前 已 经 讨论 过 基于 欧 氏 距离 的 相似 性 度量 ,即将 用 户 视 为 空间 中 的 一 个 点 ,而 相似 性 
则 基于 它们 之 间 的 距离 进行 度量 。 

同样 , 在 一 个 有 n 个 物品 的 数据 模型 中 , 用 户 偏 好 就 像 一 个 n 维 向 量 , 每 个 维度 代表 一 个 物品 。 
用 户 对 物品 的 偏好 值 为 这 个 向 量 中 的 值 。 用 户 没有 表达 偏好 的 物品 映射 为 向 量 中 的 0 值 。 它 是 一 
个 典型 的 稀 玻 矩阵 ， 大 多 值 为 0， 因 为 用 户 通常 仅 对 一 小 部 分 物品 表达 偏好 。 

例如 ， 在 这 个 小 型 样本 数据 集中 ， 用 户 3 的 偏好 对 应 向 量 [2.0, 0.0, 0.0, 4.0, 4.5, 0.0, 5.0]。 要 生 
成 推荐 结果 ， 每 个 用 户 都 需要 有 这 样 一 个 向 量 。 


6.2.3 生成 推荐 结果 


要 为 用 户 3 计 算出 推荐 结果 , 只 需 将 这 个 向 量 作 为 列 向 量 , 用 它 乘 以 共 现 矩阵 , 如 表 6-2 所 示 。 
表 6-2 ” 共 现 矩阵 乘 以 用 户 3 的 偏好 值 向 量 〈U3) 生成 推荐 结果 R 


102 103 104 105 106 107 U3 R 

101 3 4 4 2 2 了 2.0 40.0 
102 3 3 2 1 1 0 0.0 18.5 
103 3 4 3 1 2 0 x 0.0 = 24.5 
104 2 3 4 2 2 1 4.0 40.0 
105 1 了 2 2 了 了 4.5 26.0 
106 1 2 2 1 2 0 0.0 16.5 
107 0 0 了 1 0 1 


5.0 15.5 


如 果 需 要 ， 可 以 花 一 点 儿 时 间 看 看 矩阵 乘 是 如 何 进 行 的 〈http:/en.wikipedia.org/wiki/ 
Matrix_multiplication )。 共 现 和 矩阵 和 一 个 用 户 向 量 的 乘积 结果 是 一 个 向 量 ， 它 的 维度 等 于 项 目的 
个 数 。 可 以 从 结果 向 量 R 中 的 值 中 直接 得 到 推荐 结果 : 在 R 中 最 大 的 值 对 应 于 最 佳 的 推荐 。 

表 6-2 显 示 了 这 个 小 样本 数据 集 为 用 户 3 所 做 的 乘积 , 以 及 结果 和 矩阵 R。 可 以 忽略 R 中 物品 101、 
104、105 和 107 对 应 行 的 值 ( 表 中 为 斜体 )， 因 为 它们 不 适用 于 推荐 : 用 户 3 已 经 表达 过 对 这 些 物 
品 的 偏好 。 在 余下 的 物品 中 , 物品 103 的 条 目 具 有 最 高 值 24.5, 因此 是 最 佳 推荐 , 其 次 是 102 和 106。 
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6.2.4 ”解读 结果 


让 我 们 停 下 来 思考 一 下 在 上 一 节 发 生 了 什么 。 为 什么 在 R 中 较 高 的 值 对 应 于 更 好 的 推 
荐 ? 计算 R 中 的 每 个 条 目 近 似 于 为 每 个 物品 估计 一 个 偏好 ， 但 是 它们 为 什么 会 近似 于 估计 的 
偏好 值 呢 ? 

回顾 一 下 这 个 计算 ，R 中 的 第 3 个 条 目 为 矩阵 中 第 3 行 的 向 量 与 列 向 量 U3 的 点 积 。 这 是 两 个 向 
量 中 每 组 对 应 条 目 对 之 间 的 乘积 之 和 : 

4(2.0) + 3(0.0) + 4(0.0) + 3(4.0) + 1(4.5) + 2(0.0) + 0(5.0) = 24.5 

第 三 行 包含 了 物品 103 和 所 有 其 他 物品 之 间 的 共 现 关系 。 直观 而 言 ， 如果 物 品 103 和 那些 用 户 
3 表达 过 偏好 的 物品 存在 共 现 关系 , 那么 它 就 有 可 能 是 用 户 3 所 喜欢 的 物品 。 前面 的 公式 将 共 现 关 
系 和 偏好 值 的 乘积 相 加 。 当 物品 103 总 是 与 用 户 很 喜欢 的 物品 同时 出 现 ， 这 个 相 加 结果 就 包含 了 
大 的 共 现 值 和 大 的 偏好 值 之 间 的 乘积 。 这 会 使 得 总 和 (RR 中 条 目的 值 ) 更 大 。 这 就 是 R 中 较 大 的 
值 会 对 应 于 好 推荐 的 原因 。 

注意 ，R 中 的 值 并 不 代表 一 个 估计 偏好 值 (estimated preference value ) 一 一 它们 相对 于 1 
而 言 实在 太 大 了 。 理 想 情 况 下 ， 应 该 利用 一 些 额外 的 信息 将 它们 归 一 化 为 估计 偏好 值 。 但 是 
从 我 们 所 要 达成 的 目标 来 看 ， 归 一 化 没有 必要 ， 因 为 重要 的 是 推荐 的 顺序 ， 而 不 是 排序 所 依 
赖 的 确切 值 。 


6.25 分布 式 实现 


这 个 算法 的 确 很 好 ,但 它 是 否 也 更 适合 于 大 规模 的 分 布 式 实现 呢 ? 

这 个 算法 各 个 组 件 每 次 仅 处 理 全 部 数据 的 一 个 子 集 。 例 如， 生成 用 户 向 量 只 是 为 一 个 用 户 搜 
集 全 部 的 偏好 值 并 构建 出 一 个 向 量 。 统计 共 现 关系 只 需要 每 次 检查 一 个 向 量 。 计算 作 为 结果 的 推 
荐 向 量 仅 需 每 次 加 载 矩 阵 的 一 行 或 一 列 。 而 且 ， 许 多 计算 只 是 把 相关 的 数据 高 效 地 搜集 到 一 起 ， 
例如 从 各 自 的 偏好 值 中 创建 用 户 向 量 。 

MapReduce 范 式 正 是 为 拥有 这 些 特征 的 计算 而 设计 的 。 


6.3 基于 MapReduce 实现 分 布 式 算 法 


现在 ， 算 法 可 被 转换 为 基于 MapReduce 与 Apache Hadoop 实 现 的 形式 。 如 前 所 述 ，Hadoop 是 
一 个 流行 的 分 布 式 计算 框架 ， 主 要 包含 两 个 组 件 : HDFS (Hadoop Distributed Filesystem, Hadoop 
分 布 式 文件 系统 ) 和 一 个 MapReduce 范 式 的 实现 。 

本 节 稍 后 将 逐一 介绍 MapReduce 的 几 个 阶段 ， 它 们 共同 构成 一 条 生成 推荐 结果 的 流水 线 。 每 
个 阶段 完成 一 部 分 工作 。 我 们 将 看 到 每 个 阶段 的 输入 、 输 出 和 用 途 。 阅 读本 书后 续 内 容 可 知 ， 即 
便 是 这 种 简单 的 推荐 算法 也 需要 5 个 MapReduce 阶 段 ， 而 在 Mahout 中 这 还 只 是 最 简单 的 形式 。 本 
节 最 后 会 给 出 一 个 完整 的 基于 Hadoop 的 端 到 端 推荐 系统 。 
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注意 本 章 会 使 用 Hadoop 框 架 0.20.2 版 本 中 的 API。 本 节 代 码 的 完整 版 可 以 在 Mahout 中 找到 ， 它 
们 可 在 Hadoop 0.20.2 或 0.20x 分 支 中 较 新 的 版 本 中 运行 。 特 别 需 参考 org.apache .mahout .cf . 
taste.hadoop.item.RecommenderJob, 它 调用 了 所 有 后 续 过 程 的 实现 。 


6.3.1 MapReduce 简 介 


MapReduce 是 一 种 思考 和 组 织 计算 的 方法 , 据 此 可 将 计算 合理 分 布 到 许多 机 器 上 .MapReduce 
计算 的 形式 如 下 : 

(1) 输入 的 形式 为 许多 键 值 对 ( K1,V1 )， 通 常 是 一 个 HDFS 实 例 的 输入 文件 ; 

(2) Map 函 数 作用 于 每 个 (KLV1 ) 对 ， 得 到 0 个 或 多 个 与 之 不 同 的 键 值 对 (K2, V2); 

(3) 为 每 个 K2 合 并 所 有 的 V2; 

(4) 为 每 个 K2 及 其 对 应 的 V2 调用 Reduce 函 数 , 得 到 0 个 或 多 个 男 一 种 不 同 的 键 值 对 ( K3, V3 ), 
输出 返回 到 HDFS。 

这 似乎 是 一 个 奇怪 的 计算 模式 , 但 是 许多 问题 的 处 理 可 以 套用 这 个 模式 , 或 由 多 个 基于 该 
模式 的 计算 串 在 一 起 来 完成 。 以 这 种 形态 为 架构 的 问题 就 可 以 借助 于 Hadoop 和 HDFS 有 效 地 进 
行 分 布 。 

如 果 不 熟 悉 Hadoop ， 可 以 阅读 并 运行 Hadoop 的 简短 教程 ，0.20.2 版 本 的 文档 ( http://hadoop. 
apache.org/common/docs/r0.20.2/mapred_tutorial.html ) 会 教 给 你 在 Hadoop 中 运行 MapReduce 作 业 的 
基本 操作 。 


6.3.2 ”向 MapReduce 转 换 :， 生成 用 户 向 量 


在 这 个 案例 中 ， 计 算 将 含有 链接 的 数据 文件 作为 输入 。 它 的 行 不 采用 userID, itemID， 
preference 的 形式 ， 而 是 采用 userID: itemID1 itemID2 itemID3.. .的 形式 。 这 个 文件 放 
在 HDFS 上 以 便 供 Hadoop 使 用 一 一 更 多 实现 细节 会 在 几 节 之 后 讨论 。 
第 一 个 MapReduce 会 形成 用 户 向 量 。 
口 输入 文件 被 框架 视 为 (Long,string) 对 ， 这 里 Long 型 的 键 是 文件 中 的 位 置 ， 而 string 型 
的 值 为 文件 中 的 文本 行 。 例 如 239 / 98955: 590 22 9059。 

口 每 一 行 被 map 函 数 解析 为 一 个 用 户 ID 和 几 个 物品 ID 。 该 函数 输出 新 的 键 值 对 : 用 户 ID 及 其 
对 应 的 物品 ID ， 这 样 每 个 物品 ID 都 有 一 个 用 户 ID。 例 如 98955 / 590。 

口 框架 为 每 个 用 户 ID 将 所 有 对 应 的 物品 ID 搜集 到 一 起 。 

口 Reduce 函 数 利 用 全 部 的 物品 ID 为 该 用 户 构 造 一 个 向 量 (Vector )， 并 输出 这 个 用 户 的 ID， 
与 该 用 户 的 偏好 向 量 相 对 应 。 该 向 量 中 的 值 均 为 0 或 1。 例 如 98955 / [590:1.0, 22:1.0, 
9059:1.0]。 

该 想法 的 一 个 实现 可 见 代码 清单 6-1 和 代码 清单 6-2， 其 中 实现 了 Hadoop MapReduce 中 的 
Mapper 和 Reducer 接 口 。 这 是 典型 的 MapReduce 计 算 过 程 ， 包 含 这 样 一 对 相关 类 的 实现 。 这 就 
是 实现 前 述 流程 所 需 的 全 部 内 容 ， 剩 下 的 部 分 由 Hadoop 负 责 。 
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代码 清单 6-1 解析 Wikipedia 链 接 文件 的 Mapper 


public class WikipediaToItemPrefsMapper 
extends Mapper<LongWritable,Text, Vartongŵritable, VarLongWritable> { 


private static final Pattern NUMBERS = Pattern.compile("(\\d+)"); 


public void map(LongWritable key, 
Text value, 
Context context) 
throws IOException, InterruptedException { 
String line = value.toString(); 
Matcher m = NUMBERS .matcher (line) ; ,| 定位 用 户 ID 
m.find(); 
VarLongWritable userID = 
new VarLongWritable(Long.parseLong(m.group())); 
VarLongwWritable itemID = new VarLongWritable(); 


while (m.find()) { 
itemID.set (Long.parseLong(m.group())); a 为 每 个 物品 ID 生成 用 户 -物品 对 
context.write(userID, itemID); 


} 


代码 清单 6-2 ”从 用 户 的 物品 偏好 中 生成 vector 的 Reducer 


public class WikipediaToUserVectorReducer extends 
Reducer<VarLongwritable, VarLongWritable, VarLongwritable,Vectorwritable> { 
' public void reduce(VarLongWritable userID, 
Iterable<VarLongWritable> itemPrefs, 
Context context) 
throws IOException, InterruptedException { 


Vector userVector = new RandomAccessSparseVector ( 循环 遍历 用 户 的 
Integer.MAX VALUE, 100); 物品 -偏好 对 
for (VarLongWritable itemPref : itemPrefs) { 
userVector.set((int)itemPref.get(), 1.0f); 
在 “物品 ID” 维 设 
context.write(userID, new VectorWritable(userVector) ); | 置物 品 偏好 值 


} 
为 了 满足 说 明 的 需要 ， 这 里 仅 给 出 Mahout 实 际 实现 的 简化 版 。 它 们 不 包含 优化 和 配置 选项 ， 
但 是 均 可 运行 并 输出 有 用 的 结果 。 


6.3.3 向 MapReduce 转 换 : 计算 共 现 关系 


下 一 步 计 算 过 程 为 另 一 个 MapReduce， 它 使 用 第 一 个 MapReduce 的 输出 来 计算 共 现 关系 。 

(1) 输入 是 用 户 ID 及 对 应 的 用 户 偏好 vector ( 上 一 个 MapReduce 的 输出 )， 例 如 98955 / 
[590:1.0,22:1.0,9059:1.0]。 

(2) Map 函 数 根据 用 户 的 偏好 来 决定 所 有 的 共 现 关系 ， 并 为 每 一 个 共 现 关系 生成 一 个 物品 ID 
对 一 一 物品 ID 对 应 到 物品 ID。 无 论 是 从 一 个 物品 ID 到 另 一 个 的 对 应 关系 ， ,或 截然 相反 的 对 应 关系 ， 
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都 会 被 记录 下 来 。 例 如 590/22。 
(3) 框架 为 每 个 物品 搜集 与 之 对 应 的 所 有 共 现 关系 。 
(4) Reducez 为 每 个 物品 ID 统计 它 收 到 的 全 部 共 现 关系 ， 并 构造 一 个 新 的 vector ， 通 过 统计 


它们 共 现 的 次 数 来 表达 一 个 物品 的 全 部 共 现 关系 。 它 们 可 以 当做 共 现 矩阵 的 行 或 列 使 用 。 例 如 


590/[22:3.0,95:1.0,...,9059:1.0,...]o 
这 个 阶段 的 输出 实际 上 是 共 现 矩阵 。 代 码 清单 6-3 和 代码 清单 6-4 给 出 了 一 个 在 Hadoop 的 


Mahout 中 的 简单 实现 。 这 里 同样 有 Mapper 和 Reducer 的 相应 实现 。 
代码 清单 6-3 ”计算 共 现 关系 的 Mapper 


public class UserVectorToCooccurrenceMapper extends 
Mapper<VarLongWritable,VectorWritable,IntWritable, IntWritable> { 
public void map(VarLongWritable userID, 
VectorWritable userVector, 
Context context) 
throws IOException, InterruptedException { 
Iterator<Vector.Element> it = 
userVector.get().iterateNonZero(); 
while (it.hasNext()) { 
int indexl = it.next().index(); 
Iterator<Vector.Element> it2 = 
userVector.get().iterateNonZero() 


J 仅 循环 遍历 非 零 元 素 


while (it2.hasNext()) { 
int index2 = it2.next().index(); 
context.write(new IntWritable(index1), 
< 一 一 记录 项 目 ID 


new IntWritable(index2) ); 


} 
Fo 2 


代码 清单 6-4 计算 共生 关系 的 Reducer 


public class UserVectorToCooccurrenceReducer extends 
Reducer<IntWritable, IntWritable,IntWritable,VectorWritable> { 
public void reduce(IntWritable itemIndex1, 
Iterable<IntWritable> itemIndex2s, 
Context context) 
throws IOException, InterruptedException { 
Vector cooccurrenceRow = 
new RandomAccessSparseVector (Integer.MAX_ VALUE, 100); 
for (IntWritable intWritable itemIndex2s) { 


int itemIndex2 = intWritable.get(); 


cooccurrenceRow. set ( 
itemIndex2, al 累加 物品 1 和 2 的 共 现 次 数 
cooccurrenceRow.get (itemIndex2) + 1.0); 
} 
context.write ( 
ill stent ,| 记录 完整 的 物品 1 共 现 向 量 


new VectorWritable(cooccurrenceRow) ) ; 
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6.3.4 向 MapReduce 转 换 : 重新 思考 矩阵 乘 


现在 可 以 使 用 MapReduce 将 第 一 步 中 得 到 的 用 户 向 量 和 第 二 步 中 的 共 现 矩阵 相 乘 ， 从 而 得 到 
一 个 推荐 向 量 ， 从 中 算法 可 以 推测 出 推荐 结果 。 

但 是 在 这 里 , 这 个 乘法 可 以 用 一 种 不 同 但 更 为 高 效 的 方法 来 做 种 更 适合 MapReduce 计 
算 的 形式 。 这 个 算法 不 会 使 用 传统 的 矩阵 乘 , 那 是 让 每 一 行 都 去 乘 用 户 向 量 ( 作为 一 个 列 向 量 )， 
以 生成 结果 R 中 的 一 个 元 素 。 

for AMEE? HA—FTL 

HHA Fife PEAR 
将 点 积 结果 存 入 RR 中 第 并 个 元 素 

这 个 算法 我 们 在 学 校 都 学 过 ,为 什么 不 用 它 呢 ?问题 都 出 在 性 能 上 ,这 里 我 们 正好 用 它 来 理解 
一 下 设计 大 型 矩阵 和 向 量 操作 时 应 如 何 思考 , 以 便 获 得 适当 的 性 能 。 传统 的 算法 会 用 整个 共 现 矩阵 ， 
因为 它 需 要 对 每 一 行 做 一 次 向 量 的 点 积 。 这 里 任何 对 全 部 输入 进行 处 理 的 算法 都 很 “糟糕 ”， 因 为 
输入 可 能 会 超级 庞大 , 甚至 无 法 本 地 化 。 与 此 相反 , 矩阵 乘 可 以 转化 为 一 个 对 共 现 矩阵 中 列 的 函数 。 

将 R 置 为 空 向 量 

for HILFE P ADFT 

AEF eB iFe HP EP RIANA AR 
将 这 个 向 量 加 到 及 上 

请 花 点 儿 时 间 想 想 这 个 方法 ,可 以 用 一 个 小 例子 来 试 一 下 ,这 也 是 一 个 正确 的 矩阵 乘 。 此 时 
仍 算 不 上 是 改进 ， 因 为 它 还 是 要 按 列 对 整个 共 现 矩阵 进行 处 理 。 

但 是 ， 只 要 用 户 向 量 中 的 元 素 i 为 0， 循 环 就 可 以 完全 被 跳 过 去 ， 因 为 乘积 是 零 向 量 并 且 不 会 
影响 结果 。 于 是 只 要 对 用 户 向 量 的 非 零 元 素 执行 循环 即 可 。 列 数 等 于 用 户 给 出 偏好 的 个 数 ， 当 用 
户 向 量 稀疏 时 ， 它 远 小 于 列 的 总 数 。 

按 此 方法 , 算法 可 以 有 效 地 对 计算 进行 分 布 。 可 以 将 列 向 量 答 出 到 所 有 与 之 相 乘 的 元 素 上 。 
乘积 可 以 彼此 独立 地 进行 计算 和 存储 。 


6.3.5 ”向 MapReduce 转 换 : 通过 部 分 乘积 计算 矩阵 乘 


从 前 面 的 步骤 中 可 以 获得 共 现 矩阵 的 列 。 因 为 这 个 矩阵 是 对 称 的 ， 行 与 列 相 同 ， 所 以 输出 在 
理论 上 可 以 被 看 做 行 , 也 可 以 被 看 做 列 。 这 些 列 将 物品 ID 作为 键 , 算法 必须 将 所 有 用 户 向 量 中 的 
每 一 列 去 和 该 物品 中 的 每 一 个 非 零 的 偏好 值 相 乘 。 就 是 说 , 它 必 须 将 物品 ID 逐一 和 用 户 ID 以 及 偏 
好 值 对 应 起 来 ,并 在 Redaucer 中 将 它们 汇聚 在 一 起 。 在 将 每 个 值 都 与 这 个 共 现 矩阵 的 列 相 乘 之 后 ， 
就 会 生成 一 个 向 量 ， 形 成 面向 用 户 的 推荐 向 量 R 的 一 部 分 。 

这 里 的 难点 在 于 在 一 个 计算 过 程 中 要 合并 两 种 不 同 的 数据 : 共 现 列 向 量 和 用 户 偏好 值 。 这 原 
本 在 Hadoop 上 是 不 可 能 实现 的 ， 因 为 在 Redqucer 中 的 值 只 能 为 writable 这 一 种 类 型 。 有 一 种 巧 
妙 的 实现 可 以 解决 这 个 问题 ， 即 构建 一 个 新 的 Writable， 即 VectororPrefWritable, 它 含有 
一 种 或 男 一 种 数据 类 型 。 虽然 可 能 有 点 儿 取 巧 , 但 在 设计 分 布 式 计算 时 ,为 支持 优雅 而 高 效 的 计 
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算 而 修改 一 些 规则 是 非常 有 用 的 ， 也 是 必须 的 。 

这 里 的 Map 阶 段 实际 包含 了 两 个 Mapper， 每 个 产生 不 同类 型 的 Reducer 输 入 。 

口 第 一 个 Mapper 的 输入 为 共 现 和 矩阵: 以 物品 ID 为 键 ， 对 应 于 Vector 形式 的 列 。 例 如 590 / 
(2223 .0,959L.072..7,905921.0,-<<] 6 
Map 函 数 简 单 地 转发 其 输入 ’ 但 形式 上 采用 以 VectorOorPrefWritable 封 装 的 Vector。 

口 第 二 个 Mapper 的 输入 为 用 户 向 量 : 以 用 户 ID 为 键 ， 对 应 于 vector 形 式 的 偏好 值 。 例 如 
98955/[590:1.0,22:1.0,9059:1.0]。 
对 于 用 户 向 量 中 的 每 一 个 非 零 值 ， Map 函 数 输出 一 个 物品 ID ， 及 对 应 的 用 户 ID 和 偏好 值 ， 
以 VectororPrefwritable 的 形式 封装 。 例 如 590 / [98955:1.0]。 
框架 按照 物品 人 D 将 共生 关系 列 和 所 有 的 用 户 了 D- 偏 好 值 对 汇聚 在 一 起 。 
reducer 将 这 些 信 息 归 并 为 一 条 输出 记录 并 存储 下 来 。 

代码 清单 6-5 显 示 了 以 VectororPrefWritable 形 式 封 装 的 共 现 关系 列 。 


代码 清单 6-5 封装 共 现 关系 列 


public class CooccurrenceColumnWrapperMapper extends 
Mapper<IntWritable,Vectorwritable, 
IntWritable,VectorOrPrefWritable> { 
public void map(IntWritable key, 
VectorwWritable value, 
Context context) throws IOException, InterruptedException { 
context.write(key, new VectorOrPrefWritable(value.get())); 
} 
} 


在 代码 清单 6-6 中 ， 用 户 向 量 被 分 割 为 其 独立 的 偏好 值 和 输出 〈 根 据 物品 ID ， 而 非 用 户 ID )。 
代码 清单 6-6 ”分割 用 户 向 量 


public class UserVectorSplitterMapper extends 
Mapper<VarLongWritable,VectorWritable, 
IntWritable,VectorOrPrefWritable> { 
public void map(VarLongWritable key, 
VectorWritable value, 
Context context) throws IOException, InterruptedException { 
long userID = key.get(); 
Vector userVector = value.get(); 
Iterator<Vector.Element> it = userVector.iterateNonZero() ; 
IntWritable itemIndexWritable = new IntWritable(); 


while (it.hasNext()) { 
Vector.Element e = it.next(); 
int itemIndex = e.index(); 
float preferenceValue = (float) e.get(); 


itemIndexWritable.set (itemIndex) ; 
context.write(itemIndexWritable, 
new VectorOrPrefWritable(userID, preferenceValue) ); 
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从 技术 上 讲 , 在 这 两 个 Mapper 之 后 并 没有 真正 的 Reducer; 我 们 不 能 把 两 个 Mapper 的 输出 
导入 一 个 Reducer 中 。 相 反 , 它们 独立 运行 ,并 将 输出 结果 传递 到 一 个 空 的 Reducer， 最终 保 存 
在 两 个 位 置 。 这 两 个 位 置 可 以 作为 另 一 个 MapReduce 的 输入 ， 它 的 Mapper 什 么 也 不 做 ， 而 
Reducer 将 物品 的 一 个 共 现 关系 列 向 量 , 并 和 该 物品 对 应 的 所 有 用 户 及 偏好 值 汇聚 在 一 起 形成 一 
个 实体 , 称 为 VvectorAndPrefsWritable。 上 述 过 程 在 ToVectorAndPrefReducer 中 实现 , 简 
单 起 见 不 再 著述 。 

有 了 共 现 矩阵 的 列 和 用 户 偏 好 ， 且 它们 均 以 物品 也 为 键 ， 算 法 就 可 以 将 它们 导入 到 一 个 
mapper 中 ， 并 输出 该 列 和 用 户 偏好 的 乘积 。 这 个 步骤 见 代码 清单 6-7。 

(1) mapper 的 输入 是 按 物 品 组 织 的 所 有 共 现 矩阵 列 和 用 户 偏好 。 例 如 590 / [22:3.0,95: 
Is ssa 9059:1.0,...]#590 / [98955:1.0]. 

(2) mapper 的 输出 是 共 现 关系 列 乘 以 每 个 对 应 用 户 的 偏好 值 。 例 如 590 / [22:3.0,95: 
Hl oO. js wie orp 9059 +1.0,...Jée 

(3) 框架 按 用 户 将 这 些 乘积 汇集 在 一 起 。 

(4) reducer 将 输入 的 所 有 向 量 拆 开 后 求 和 ， 形 成 对 该 用 户 的 最 终 推荐 向 量 R。 例 如 590 / 
(22 74.0, 4573.0 95 211.0, ...,9059:1.0,...J6 


代码 清单 6-7 计算 部 分 推荐 向 量 


public class PartialMultiplyMapper extends 
Mapper<IntWritable,VectorAndPrefsWritable, 
VarLongWritable,VectorWritable> { 
public void map(IntWritable key, 
VectorAndPrefsWritable vectorAndPrefsWritable, 
Context context) throws IOException, InterruptedException { 


Vector cooccurrenceColumn = vectorAndPrefsWritable.getVector(); 
List<Long> userIDs = vectorAndPrefswWritable.getUserIDs(); 
List<Float> prefValues = vectorAndPrefsWritable.getValues(); 


for (int i = 0; i < userIDs.size(); i++) { 
long userID = userIDs.get (i); 
float prefValue = prefValues.get (i); 


Vector partialProduct = cooccurrenceColumn.times (prefValue) ; 
context.write(new VarLongWritable(userID), 
new VectorWritable(partialProduct) ); 
} 
} 
} 


这 个 mappper 会 写 很 多 数据 。 对 于 每 个 用 户 -物品 关联 ， 它 都 会 输出 共 现 矩阵 中 一 个 完整 列 的 副 
本 。 这 几乎 是 必须 的 ， 这 些 副本 要 在 reducer 中 和 其 他 列 的 副本 组 合 与 相 加 ， 以 生成 一 个 推荐 向 量 。 

但 是 这 个 阶段 可 以 引入 一 个 优化 :combiner。 它 就 像 一 个 小 型 的 reducer 操 作 ( 实际 上 ,combiner 
也 扩展 了 Reducer )， 它 当 map 的 输出 仍 在 内 存 时 执行 ， 在 输出 记录 未 被 执行 写 操作 之 前 将 几 个 
记录 合并 为 一 个 。 这 会 节省 IO ， 而 这 种 事 并 不 常见 。 在 这 里 ， 对 一 个 用 户 输出 两 个 向 量 A 和 了 B， 
就 和 对 这 个 用 户 输出 一 个 向 量 A+B 一 样 一 一 它们 在 最 后 都 会 被 加 在 一 起 。 
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代码 清单 6-8 给 出 了 一 个 combiner, 处 理 PartialMultiplyMapper 的 输出 。 它 能 节省 多 少 1/O 
取决 于 Hadoop 在 写 人 磁盘 前 在 内 存 中 能 够 存放 多 少 输出 结果 ( map 洲 出 缓冲 区 ), 以 及 在 map 节 点 


的 输出 中 涉及 一 个 用 户 的 列 出 现 得 有 多 频繁 。 也 就 是 说 ， 如 果 大 量 Mapper 的 输出 被 存放 在 内 存 
中 ， 它 们 很 多 都 可 以 被 合并 ， 那么 combiner 就 会 节省 大 量 的 WO。Mahout 对 这 些 作 业 的 实现 会 尝 
试 将 io . sort .mb 增 大 到 1 GB， 来 为 mapper 的 输出 预 留 比 平时 更 多 的 内 存 。 


代码 清单 6-8 ”实现 部 分 乘积 的 combiner 


public class AggregateCombiner extends 
Reducer<VarLongWritable,VectorwWritable, 
VarLongWritable,VectorWritable> { 
public void reduce(VarLongWritable key, 
Iterable<VectorWritable> values, 
Context context) 
throws IOException, InterruptedException { 


Vector partial = null; 
for (VectorWritable vectorWritable : values) { 
partial = partial == null ? 
vectorwWritable.get() : partial.plus(vectorWritable.get()); 
} 


context.write(key, new VectorWritable(partial)); 


6.3.6 ”向 MapReduce 转 换 :， 形成 推荐 


最 后 ,算法 为 每 个 用 户 合并 推荐 向 量 ， 以 形成 推荐 结果 ， 如 代码 清单 6-9 所 示 。 
代码 清单 6.9 ”处 理 来 自 向 量 的 推荐 结果 


public class AggregateAndRecommendReducer extends 
Reducer<VarLongWritable,VectorWritable, 


LongWritable,RecommendedItemsWritable> { 


Var 


public void reduce(VarLongWritable key, 


Tterable<VectorWritable> values, 
Context context) 
throws IOException, InterruptedException { 
Vector recommendationVector = null; 
for (VectorWritable vectorWritable : values) { 
recommendationVector = 


= recommendationVector == null ? 
vectorWritable.get() 


J 求 和 以 形成 推荐 向 量 


recommendationVector.plus(vectorWritable.get()); 


} 


Queue<RecommendedItem> topItems 
recommendationsPerUser + 1, 
Collections.reverseOrder!( 


new PriorityQueue<RecommendedItem> ( 
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ByValueRecommendeditemComparator.getInstance())); 


Iterator<Vector.Element> recommendationVectorIterator = 
recommendationVector.iterateNonZero(); 
while (recommendationVectorIterator.hasNext()) { 
Vector.Element element = recommendationVectorIterator.next(); 
int index = element.index(); 
float value = (float) element.get(); 
if (topItems.size() < recommendationsPerUser) { 
topItems .add (new GenericRecommendedItem ( 
indexItemIDMap.get (index), value)); 


} else if (value > topItems.peek().getValue()) { 
topItems.add(new GenericRecommendedItem ( 找到 最 大 的 N 个 值 
indexItemIDMap.get (index), value)); 


topItems.poll(); 
} 
} 


List<RecommendedItem> recommendations = 
new ArrayList<RecommendediItem>(topItems.size()); 
recommendations.addAll(topItems) ; 
Collections.sort (recommendations, 
ByValueRecommendediItemComparator.getInstance()); 
context .write ( 
key, 


new | 按 序 输出 推荐 结果 


RecommendedItemsWritable (recommendations) ); 
} 
} 


输出 最 后 以 一 个 或 多 个 压缩 文本 文件 的 形式 存放 在 HDFS 上 。 该 文本 文件 的 行 采用 如 下 形式 : 

3 {103:24.5,102:18.5,106:16.5] 

每 个 用 户 ID 之 后 跟随 一 个 以 逗号 分 隔 的 物品 了 列表 ( 物品 ID 后 跟着 一 个 冒号 和 推荐 向 量 中 的 
对 应 条 目 , 不 论 其 是 否 有 用 )。 应 用 可 以 从 HDFS 中 获取 、 解 析 与 使 用 这 个 输出 结果 。 注 意 从 Mahout 
中 获得 的 输出 结果 都 是 gzip 压 缩 过 的 ， 这 样 做 是 为 了 节省 空间 。 

最 终 , 我 们 用 来 自 Wikipedia 数 据 集 的 原始 输入 数据 获得 了 推荐 结果 。 如 你 所 见 ， 即 便 是 这 样 
简单 的 推荐 程序 , 在 Hadoop 这 样 的 分 布 式 系统 上 做 设计 和 实现 时 , 都 会 如 此 不 同 。 Deere 

形式 ， 它 仍 包含 5 个 阶段 ， 每 个 阶段 执行 其 中 一 部 分 计算 或 转换 。 下 一 步 自然 是 将 它们 全 都 运转 
起 来 ,来 更 好 地 理解 推荐 是 如 何 实际 工作 的 。 


6.4 在 Hadoop 上 运行 MapReduce 


现在 是 时 候 在 Wikipedia 链 接 数 据 集 上 运行 这 个 实现 了 。 虽 然 Hadoop 有 能 力 在 上 千 台 机 器 的 
集群 上 运行 , 但 是 你 首先 会 在 只 有 一 台 机 器 的 集群 上 运行 Hadoop 计 算 : 你 的 本 机 。 相 比 于 一 个 适 
当 的 集群 ， 学 习 在 本 地 计算 机 上 建立 Hadoop 和 集群 要 简单 得 多 。 

这 个 过 程 不 会 和 使 用 一 个 真实 集群 有 很 大 差别 。 首先 , 你 需要 在 本 机 上 安装 一 个 伪 分 布 式 的 
Hadoop 和 集群 ， 然 后 就 可 以 在 上 面 使 用 Mahout 运 行 MapReduce 作 业 。 
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6.4.1 安装 Hadoop 


如 第 1 章 所 述 ， 你 需要 从 Apache 下 载 一 个 最 新 的 Hadoop 副 本 ( http://hadoop.apache.org/ 
common/releases.html )。 本 书写 作 时 , 我 们 推荐 使 用 的 版 本 为 0.20.2。 遵 照 http://hadoop.apache.org/ 
common/docs/current/single_node_setup.html 的 安装 指导 ， 配 置 为 伪 分 布 方式 。 

在 使 用 bin/start-all .sh 运行 Hadoop 的 守护 进程 之 前 , 要 在 conf/mapred-site.xml 中 做 一 个 
修改 ,增加 一 个 名 为 mapred.child.java.opts 的 属性 ， 值 为 -Xxmx1024m。 这 会 让 Hadoop 的 
worker 能 够 使 用 1 GB 的 堆 空 间 。 一 旦 你 开始 运行 所 有 的 Hadoop 守 护 进 程 ， 就 可 以 结束 安装 。 

你 现在 可 以 在 本 机 上 运行 一 个 包含 HDFS 实 例 的 完整 Hadoop 和 集群。 输入 要 放 在 HDFS 上 ， 这 
样 才能 为 Hadoop 所 用 。 你 也 许 会 感到 奇怪 , 既然 数据 已 经 在 本 地 文件 系统 上 了 , 为 什么 还 要 再 复 
制 到 HDFS 上 。 回 顾 一 下 ,通常 Hadoop 是 一 个 运行 在 许多 机 器 上 的 框架 ， 因 此 它 使 用 的 任何 数据 
都 应 该 能 被 多 台 机 器 看 见 ， 而 不 是 一 台 。HDFS 能 够 让 多 台 机 器 获得 数据 。 使 用 如 下 命令 复制 输 
人 到 HDFS 上 : 

bin/hadoop fs -put links-simple-sorted.txt input/input.txt 

要 为 数据 集中 的 每 篇 文章 都 生成 推荐 会 花费 很 长 的 时 间 , 因为 只 有 一 台 机 器 运行 , 还 引入 了 
分 布 式 计算 框架 的 开销 。 但 你 可 以 决定 Mahout 的 推荐 次 数 ， 比 如 说 仅 为 一 个 用 户 (文章 ) 进行 计 
算 。 创 建 一 个 只 有 一 行 的 文件 ， 包 含 数字 3， 并 将 其 存 为 users.txt。 这 就 是 算法 会 为 之 生成 推荐 的 
文章 列表 ， 在 测试 中 只 有 一 篇 文章 。 把 它 放 入 HDFS 实 例 中 ,命令 如 下 : 


bin/hadoop fs -put users.txt input/users.txt 


6.4.2 ”在 Hadoop 上 执行 推荐 


org.apache.mahout.cf.taste.hadoop.item.RecommenderJob 将 各 种 Mapper 和 
Reducez 组 件 粘连 在 一 起 。 你 可 以 在 Mahout 源 发 布 中 找到 它 。 它 配置 并 调用 我 们 之 前 讨论 的 一 系 
列 MapReduce 作 业 。 这 些 MapReduce 及 其 之 间 的 关系 如 图 6-2 所 示 。 

为 了 运行 RecommenderJob 并 让 Hadoop 来 运行 这 些 作业 ， 你 需要 将 所 有 这 些 代码 及 其 依赖 的 
所 有 代码 打包 为 一 个 JAR 文 件 。 这 很 容易 通过 在 Mahout 发 布 包 的 core/ 目 录 下 运行 mvn clean 
package 来 完成 一 一 生成 一 个 类 似 mahout-core-0.5-job.jar 这 样 的 文件 ,另外 ,你 也 可 以 使 用 Mahout 
发 布 包 中 预 编译 的 作业 JAR 包 。 

现在 ， 开 始 运 行 这 些 命令 : 

hadoop jar mahout-core-0.5-job.jar \ 

org.apache.mahout.cf.taste.hadoop.item.RecommenderJob \ 


-Dmapred.input.dir=input/input.txt \ 
-Dmapred.output.dir=output --usersFile input/users.txt --booleanData 


Hadoop 会 接手 并 开始 运行 这 一 系列 的 作业 。 这 会 花 上 几 个 小 时 , 因为 只 有 一 台 机 器 ( 你 的 本 
机 ) 在 处 理 这 个 计算 。 即 使 通过 一 组 机 器 ， 也 不 能 期 待 能 在 几 分 钟 内 完成 任务 ; 初始 化 集群 的 开 
销 、 分 布 数据 并 执行 代码 ， 还 有 整理 结果 都 会 花 很 多 时 间 。 
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 ToUserVectorReducer 


Hadoop 
图 6-2 RecommenderJob 之 间 的 关系 、 它 调用 的 MapReduce， 以 及 向 HDFS 读 写 的 数据 


实际 上 ， 若 在 单机 集群 上 为 这 个 数据 集 的 全 部 570 万 用 户 进 行 推荐 ， 这 会 花费 大 约 700 小 时 的 
CPU 时 间 , 每 次 推荐 大 概 用 半分 钟 。 运行 时 间 取 决 于 最 后 的 阶段 , 那里 会 有 向 量 乘 和 向 量 加 的 操作 。 
时 间 开 销 会 比 在 规模 较 小 的 非 分 布 式 推荐 程序 上 还 多 ， 只 是 还 到 不 了 几 倍 那 么 高 。 依 据 当 前 在 
Amazon Elastic MapReduce 上 运行 虚拟 实例 的 价格 ,每 1000 个 用 户 会 花费 大 约 0.01 美 元 。 当 然 , 不必 
花费 700 小 时 来 计算 所 有 这 些 推荐 ; 如 果 部 署 了 100 个 工作 节点 ， 整 个 过 程 用 7 个 多 小 时 就 能 完成 。 

回 到 本 机 的 实例 ， 如 果 你 耐心 地 等 待 它 完成 对 一 个 用 户 的 推荐 ， 就 会 在 HDFS 的 output 目 录 
下 找到 结果 。 结 果 存 在 一 个 名 为 part-r-00000 的 文件 中 。 

使 用 命令 bin/hadoop fs -get output/part-r-00000 将 结果 复制 到 本 地 文件 系统 ， 就 
可 以 访问 并 使 用 这 个 文件 了 。 
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庆祝 一 下 ， 这样 就 完成 了 ! 你 已 经 利用 一 个 完全 分 布 式 的 框架 ( 单 节点 集群 ) 生成 了 推荐 结 
果 。 最 后 ,不 要 忘记 通过 bin/stop-all .sh 来 关闭 Hadoop。 


6.4.3 配置 mapper 和 reducer 


这 里 有 一 个 要 点 。 以 前 , 我 们 让 Hadoop 默 认 每 次 仅 运 行 一 个 map worker 和 一 个 reduce worker. 
这 是 合理 的 ,因为 当时 算法 仅 在 一 台 单 机 上 运行 。 但 是 ， 当 启动 作业 的 集群 有 许多 台 机 器 时 ， 一 
个 worker 就 太 少 了 。 在 一 个 真实 的 集群 中 ，worker 的 个 数 可 以 通过 如 下 命令 行 参数 来 控制 : 

-Dmapred.map.tasks=X -Dmapred.reduce.tasks=Y 

开始 时 可 以 用 集群 中 核 的 个 数 来 设置 Y 和 7。 例如 , 如果 你 的 集群 有 5 人 台 4 核 的 机 器 ， 就 将 它们 
均 设 为 20。 

至 此 ， 你 已 经 成 功 地 在 Hadoop 上 设计 实现 了 一 个 分 布 式 算 法 、 安 装 了 一 个 Hadoop 集 群 ， 并 
让 实现 在 Hadoop 上 运行 起 来 。 这 就 是 所 需 学 习 的 大 部 分 内 容 ， 而 与 真实 的 Hadoop 集 群 交互 本 质 
上 与 此 相同 。 这 还 会 让 你 能 够 使 用 Mahout 处 理 其 他 基于 MapReduce 和 基于 Hadoop 的 机 器 学 习 算 
法 ， 它 们 会 在 以 后 的 章节 中 出 现 。 

在 结束 对 推荐 程序 的 讨论 之 前 ， 我 们 再 来 看 Mahout 中 另 一 种 基于 Hadoop 的 推荐 程序 ， 它 是 
一 种 介 于 分 布 式 和 非 分 布 式 方 法 之 间 的 混合 物 。 


6.5 伪 分 布 式 推荐 程序 


我 们 之 前 描述 了 如 何在 单机 上 通过 Mahout 创 建 、 测 试 并 操作 各 种 非 分 布 式 推 荐 引擎 。 本 章 说 
明 如 何 采 用 一 种 截然 不 同 的 方式 运行 一 个 完全 分 布 式 的 推荐 程序 。 不过, 这 里 的 情况 介 于 分 布 式 
和 非 分 布 之 间 ， 因 为 面向 的 是 希望 使 用 非 分 布 式 实现 在 多 机 上 运行 的 应 用 。 

这 些 应 用 已 经 在 非 分 布 式 框架 下 开发 出 高 效 的 定制 化 实现 。Recommender 的 实现 也 许 与 所 
有 的 非 分 布 式 实现 一 样 ， 是 与 DataModel 直 接 绑 定 的， 需要 对 所 有 数据 进行 高 效 和 随机 的 访问 。 
因此 ， 我 们 很 难 或 无 法 按照 完全 分 布 的 方式 来 改造 它 。 

Mahout 为 此 提供 了 一 个 伪 分 布 式 的 推荐 引擎 框架 。 这 只 是 一 个 对 Hadoop 的 应 用 ，Hadoop 可 
以 并 行 地 运行 给 定 推荐 引擎 的 多 个 独立 、 非 分 布 式 的 实例 。 因此, 我 们 可 以 轻松 地 让 一 个 成 熟 的 、 
非 分 布 式 算 法 使 用 许多 机 器 。 这 种 机 制 实际 上 并 没有 将 计算 并 行 化 , 它 只 是 管理 了 多 个 非 分 布 式 
实例 的 操作 。 性 能 与 直接 运行 一 个 非 分 布 式 的 实例 相同 , 但 是 它 允 许 你 在 2 台 机 器 上 运行 z 个 推荐 
程序 ， 每 个 处 理 1/n 的 推荐 ， 所 用 时 间 也 就 变 成 单机 的 1/n。 

这 种 方法 的 缺点 是 可 扩展 性 受 限 : 一 个 非 分 布 式 的 计算 无 法 处 理 更 大 量 的 数据 , 这 是 由 运行 
它 的 机 器 的 资源 所 决定 的 一 一 一 个 不 适合 在 一 台大 机 器 上 做 的 运算 转 到 n 个 独立 的 大 机 器 上 运行 
也 不 会 适合 。 伪 分 布 不 会 改变 这 一 点 。 

这 里 没有 引入 新 的 算法 和 代码 ; Mahout 的 伪 分 布 式 推荐 引擎 框架 仍 用 原来 的 Recommender， 
但 是 在 Hadoop 之 上 运行 。 从 概念 上 看 ， 它 使 用 Hadoop 将 用 户 集合 分 在 z 台 机 器 上 ， 并 把 输入 数据 
复制 到 每 台 机 器 ， 然 后 在 每 台 机 器 上 运行 Recommender 对 一 个 用 户 子 集 进行 推荐 。 
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这 个 过 程 和 以 前 没有 什么 两 样 。 安 装 和 运行 Hadoop， 把 包含 偏好 的 输入 文件 复制 到 HDFS。 
如 果 你 希望 尝试 这 个 框架 ， 选择 一 个 输入 ， 比 如 GroupLens 100 K 数 据 集中 的 ua.base。( Wikipedia 
链接 数据 集 太 大 而 无 法 用 于 非 分 布 式 实现 。) 这 个 数据 集中 的 输入 文件 ua.base 需 要 做 一 个 小 转换 
才能 被 这 段 代码 处 理 ， 即 制 表 符 必须 转换 为 逗号 。 你 可 以 用 自己 喜欢 的 编辑 器 来 做 这 件 事 , 或 者 
使 用 如 下 Unix 命 令 : 
cut -f1-3 ua.base | tr '\t' ',' > ua.base.hadoop 
将 ua.base.hadoop 放 人 HDFS， 例 如 input/ua.base.hadoop。 
框架 需要 知道 Recommender 实 现 的 名 称 , 以 便 对 它 初始 化 和 使 用 。 对 于 这 个 实现 只 有 一 个 要 
求 ， 即 它 必须 提供 一 个 包含 唯一 参数 DataModel 的 构造 函数 。 有 了 这 个 构造 函数 , 框架 就 可 以 做 
余下 的 工作 。 通 常情 况 下 ， 你 会 在 这 里 提供 一 个 为 自己 的 应 用 定制 的 Recommenaer。 但 在 测试 
时 ， 用 slopeoneRecommender 就 可 以 ， 因 为 它 就 可 以 仅 通过 DataModae1 人 参数 进行 初始 化 。 
文件 mahout-core-0.5-job.jar 已 经 包含 了 slopeOneRecommender ， 因 为 它 是 一 个 标准 的 
Mahout 实 现 。 但 是 如 果 使 用 的 是 自己 的 实现 , 你 就 需要 把 它 及 其 依赖 的 类 放 在 JAR 文 件 里 。 最 后 
用 如 下 命令 来 完成 : 
jar uf mahout-core-0.5-job.jar -C [classes directory] 
其 中 ， 类 目录 (class directory ) 存放 由 IDE 或 其 他 构建 工具 编译 出 的 代码 。 
最 后 ， 运 行 这 个 作业 : 
hadoop jar mahout-core-0.5-job.jar \ 
org.apache.mahout.cf.taste.hadoop.pseudo.RecommenderJob \ 
-Dmapred.input.dir=input/ua.base.hadoop \ 
-Dmapred.output.dir=output \ 


--recommenderClassName \ 
org.apache.mahout.cf.taste.impl.recommender.slopeone.SlopeOneRecommender 


你 同样 会 在 HDFS 的 output/ 目 录 下 看 到 输出 结果 。 
这 就 是 全 部 过 程 ; 如 果 输 入 数据 未 达到 需要 真正 分 布 式 算法 的 规模 , 伪 分 布 式 推荐 框架 是 一 
种 又 快 又 好 的 办 法 ,可 以 利用 更 多 的 计算 能 力 来 更 快 地 获得 推荐 结果 。 


6.6 深入 理解 推荐 


本 章 所 介绍 的 Mahout 推 荐 引擎 的 分 布 式 部 分 仍 在 开发 中 ,所 以 阅读 时 请 参考 最 新 的 文档 和 代 
码 ， 关 注 Mahout 以 获悉 它 的 变化 。Mahout 算 是 一 个 “半成品 ”， 由 一 个 不 断 成 长 的 社区 开发 与 维 
护 ; 我 们 的 目标 是 不 断 地 完善 或 增强 对 推荐 程序 和 机 器 学 习 的 领悟 和 有 效 使 用 能 力 。 

在 探讨 聚 类 和 分 类 算法 之 前 , 我 们 将 简要 而 明晰 的 想法 归结 起 来 , 作为 后 续 思 考 和 了 人 解 推荐 
引擎 的 起 点 。 


6.6.1 在 云 上 运行 程序 
你 找 不 到 100 台 机 器 运行 这 些 大 型 分 布 式 计算 ? 没关系 ， 如 今 服务 提供 商 允 许 你 从 一 个 计算 
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云 上 租用 存储 和 计算 时 间 。 

亚马逊 的 Elastic MapReduce 服 务 ( http://aws.amazon.com/elasticmapreduce/ ) 就 是 这 样 一 个 服 
务 , 如 图 6-3 所 示 。 它 使 用 亚马逊 的 S3 存 储 服务 ( 而 不 是 一 个 单纯 的 HDFS 实 例 ) 在 云 上 存储 数据 。 
上 传 JAR 文 件 和 数据 到 S3 之 后 ， 你 就 可 以 使 用 它们 的 AWS Console 调 用 一 个 分 布 式 计 算 ， 只 需 提 
供 过 去 在 命令 行 下 调用 计算 时 使 用 的 相同 参数 。 


Please review the details of your job flow and click "Create Job Flow” when you are ready to | 


Job Flow Name: My Job Flow 

Type: Custom Jar 

Jar Location: $3://my-bucket/mahout.jar E 
Jar Arguments: org.apache.mahout.cf.taste.hadoop.item.Recomme 


nderJob —Dmapred.map.tasks=10 - 
Dmapred.reduce.tasks=10 — 


Number of Instances: 10 

Type of Instance: mi.smali 
Amazon EC2 Key Pair: 

Amazon S3 Log Path: 

Enable Hadoop Debugging: No 


Bootstrap Actions: No Bootstrap Actions created for this Job Flow 


Back | Greate JobFlow | | 


Swen alensid a Monies A RS 


Al6-3 ”亚马逊 的 AWS Elastic MapReduce 控 制 台 


进入 AWS Console 主 界面 之 后 ,选择 Amazon Elastic MapReduce 栏 ,再 选择 Create New Job Flow 
(创建 新 作业 流 ) 选项 。 给 这 个 新 的 流 (flow ) 命名 ， 并 指定 Run Your Own Application (i277 A 
己 的 应 用 程序 )。 选 择 Custom Jar ( 自 定义 Jar ) 类 型 并 继续 。 指 定 S3 上 JAR 文 件 的 放置 位 置 ; 形式 
为 S$3:URL， 类 似 于 s3://my-bucket/target/mahout-core-0.5-job.jar。 

作业 的 参数 和 在 命令 行 下 运行 时 一 样 ; 当然 在 这 里 配置 mapper 和 reducer 的 个 数 是 非常 必 
要 的 。mapper 和 reducer 的 个 数 可 以 依 你 的 喜好 来 定 ; 和 以 前 一 样 ， 开 始 时 可 以 设置 为 你 为 计 
算 预 留 的 虚拟 核 的 个 数 。 虽 然 可 以 使 用 任意 的 实例 类 型 ， 但 除非 有 特别 的 原因 ， 否 则 开始 时 
都 用 一 个 常规 类 型 : small、large 或 extra-large。 实 例 的 个 数 和 类 型 在 下 一 个 AWS Console 界 面 
中 选择 。 

如 果 输 入 数据 非常 大 ,一些 推 荐 作业 ( 如 在 org.apache.mahout .cf.taste.hadoop .item 
中 的 作业 ) 可 能 需要 为 每 个 mapper 或 reducer 分 配 更 多 的 RAM。 此 时 ， 你 也 许 不 得 不 选择 一 个 
high-memory 实 例 类 型 。 你 可 能 还 需要 用 到 high-CPU 实 例 类 型 ， 风险 是 作业 会 花费 过 多 的 时 间 从 
S3 中 读 写 数据 来 喂 饱 这 些 贪 禁 的 CPU， 和 否则 它们 大 部 分 时 间 会 “很 狐 "。 因 此 ， 传 统 的 实例 类 型 
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是 一 个 很 好 的 起 点 。 如 果 你 正在 使 用 small 实 例 类 型 , 其 中 每 个 实例 拥有 一 个 虚拟 核 , 就 可 以 设置 
mapper 和 reducer 的 个 数 为 你 选择 的 实例 个 数 。 

你 可 以 保持 其 他 参数 不 动 ， 除 非 有 理由 变更 它们 。 

这 里 介绍 了 在 Elastic MapReduce 上 运行 一 个 推荐 作业 的 基础 内 容 ; 参考 亚马逊 的 文档 可 以 了 
解 更 多 关于 监视 、 停 止 和 调试 这 些 作业 的 信息 。 


6.6.2 考虑 推荐 的 非 传统 用 法 


我 们 对 推荐 程序 的 讨论 即将 收尾 。 但 在 探讨 聚 类 之 前 ， 有 必要 转换 一 下 思路 ,最 后 讨论 一 下 
推荐 程序 在 你 项 目 中 的 适用 性 。 

虽然 Mahout 推 荐 引擎 的 API 是 用 “用 户 ” 和 “物品 ”表述 的 ， 但 这 个 框架 并 不 假设 “用 户 ” 
就 是 人 ,也 不 假设 “物品 ”就 是 书 或 DVD 这 样 的 物品 。 例 如 , 推荐 引擎 可 应 用 在 约会 网 站 的 数据 
上 为 某 个 或 某 些 人 推荐 某 个 或 某 些 人 。 还 可 以 怎样 使 用 推荐 引擎 呢 ? 下 面 这 些 思路 可 以 引发 你 的 
思考 。 

口 为 物品 推荐 用 户 “ 通 过 物品 了 PP 和 用 户 ID 的 交换 ， 推 荐 引擎 的 输出 转变 为 : 哪些 用 户 会 对 

指定 物品 更 感 兴趣 。 
口 扩展 物品 的 范畴 ”给 定 与 用 户 关 联 的 地 方 、 时 间 、 使 用 模式 或 者 其 他 人 ， 就 可 以 为 之 推 
荐 相同 类 型 的 物品 (地方 、 时 间 、 使 用 模式 或 者 其 他 人 )。 

口 找到 最 相似 的 物品 Mahout 中 基于 物品 的 推荐 程序 实现 使 得 发 现 一 组 最 相似 的 物品 变 得 
很 容易 。 

口 扩展 偏好 值 的 范畴 ”通常 无 法 从 用 户 那 里 获得 明确 的 偏好 值 。 你 只 能 根据 所 了 解 的 用 户 
对 事物 的 关系 来 推测 。 

口 考虑 不 止 一 个 用 户 和 物品 可 以 为 一 对 用 户 进 行 推荐 ， 即 把 一 对 用 户 视 为 一 个 用 户 。 你 
还 可 以 把 物品 及 其 位 置 统 一 视 为 一 个 物品 来 进行 推荐 。 

Mahout 没 有 为 这 些 应 用 案例 提供 专门 的 支持 , 但 它们 都 可 以 在 Mahout 之 上 实现 。 这 也 许 是 
Mahout 未 来 的 一 个 发 展 方向 ， 也 或 许 会 出 现在 一 些 专 用 的 第 三 方 项 目 中 。 需 要 特别 指出 的 是 ， 
基于 用 户 的 行为 和 其 他 数据 来 推测 隐 含 的 评分 , 这 本 身 就 很 有 趣 且 很 重要 , 但 非 Mahout 所 关注 
的 内 容 。 


6.7 小 结 


本 章 我 们 简要 审视 了 来 自 于 维基 百科 文章 链接 的 大 型 数据 集 。 它 庞大 的 1.3 亿 偏好 值 需要 一 
个 不 同 的 分 布 式 推荐 生成 方法 。 

我 们 权衡 了 从 单机 非 分 布 式 算 法 向 集群 分 布 式 计算 过 滤 的 过 程 。 接 着 我 们 简要 介绍 了 
MapReduce 范 式 及 其 在 Hadoop 上 的 实现 ， 它 是 管理 这 种 分 布 式 计算 的 一 种 手段 。 

我 们 将 之 前 基于 物品 的 推荐 算法 转换 为 一 种 不 同 的 分 布 式 实现 , 后 者 依赖 于 矩阵 和 向 量 操作 
来 发 现 最 佳 推荐 。 我 们 再 次 使 用 Wikipedia 数 据 集 ， 让 它 可 在 Hadoop 中 使 用 ， 并 在 本 地 Hadoop 和 
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HDFS 实 例 上 为 该 数据 集 生 成 推荐 。 

最 后 ， 我 们 用 Mahout 做 了 伪 分 布 式 推荐 的 计算 : 在 Hadoop 上 运行 了 非 分 布 式 Recommender 
实现 的 几 个 独立 实例 。 

这 就 是 Mahout 上 的 推荐 引擎 。 至 此 , 我 们 有 序 地 介绍 了 机 器 学 习 中 一 个 方面 , 从 小 输入 和 非 
分 布 式 计算 逐 步 过 渡 到 了 大 规模 的 分 布 式 计 算 。 现 在 ， 我 们 将 转 而 讨论 Mahout 上 的 聚 类 和 分 类 ， 
它们 涉及 更 多 复杂 的 机 器 学 习 理论 ， 并 会 更 多 用 到 分 布 式 计算 。 有 了 推荐 引擎 ,你 已 经 为 此 做 好 
了 准备 。 请 继续 读 下 去 。 


x OUR 


本 书 这 一 部 分 ， 贯 穿 第 7 章 到 第 12 章 ， 讨 论 Apache MahoutP h RAH, Fil FA BRIER 
术 ， 我 们 可 以 把 相近 的 数据 片段 归 为 一 个 集合 或 者 复 。 聚 类 有 助 于 揭示 大 规模 数据 中 信息 的 有 趣 
组 合 。 

这 一 部 分 首先 讲述 聚 类 中 的 简单 问题 ， 给 出 了 一 些 Java 示 例 。 之 后 ， 你 会 看 到 更 多 在 真实 场 
景 下 的 示例 ， 并 学 会 让 Apache Mahout 以 Hadoop 作 业 的 方式 运行 ， 以 便 轻 松 地 对 大 量 数据 进行 聚 
zA 

第 7 章 介绍 了 聚 类 的 定义 ， 并 通过 一 个 对 二 维 平 面 上 点 的 聚 类 示例 展开 阐释 。 第 8 章 介绍 了 
向 量 的 概念 ， 并 解释 了 如 何 使 用 它们 表示 数据 。 第 9 章 介绍 了 Apache Mahout 中 实现 的 各 种 聚 类 算 
法 。 这 一 章 通过 清晰 的 例子 展示 了 各 种 聚 类 算法 是 如 何 适 应 各 种 应 用 场景 的 。 

第 10 章 介绍 如 何 评估 诊 类 ， 以 及 如 何 通过 调节 Mahout 中 的 各 种 选项 和 参数 改进 聚 类 质量 。 
第 11 章 讨论 了 Apache Mahout 聚 类 的 分 布 式 实现 ， 解 释 了 聚 类 如 何以 Hadoop 作 业 的 形式 运行 以 处 
理 大 数据 集合 。 

最 后 ， 第 12 章 基于 上 述 各 章 的 内 容 探讨 了 一 些 现实 场景 下 的 聚 类 问题 ， 以 及 基于 Apache 
Mahout 的 解决 方案 。 


ABA 

O 初 识 聚 类 

口 相似 性 概念 的 理解 

O 在 Mahout 中 运行 简单 的 聚 类 示例 
口 用 于 聚 类 的 各 种 距离 测度 方法 


人 类 倾向 于 跟 志 趣 相 投 的 人 在 一 起 ， 也 就 是 “ 物 以 类 聚 ， 人 以 群 分 ”。 我 们 有 足够 的 智力 寻 
找 重复 的 模式 , 我 们 不 断 将 看 到 的 、 听 到 的 、 闻 到 的 和 品尝 到 的 与 记忆 中 已 经 存在 的 东西 相 联系 。 
举例 来 说 : 蜂蜜 的 味道 提示 我 们 它 尝 起 来 像 糖 而 不 是 盐 , 所 以 我 们 把 味道 像 糖 和 蜂蜜 的 东西 归 为 
甜食 ， 即 使 不 知道 甜食 尝 起 来 是 什么 样 , 我 们 也 知道 世界 上 所 有 有 甜 味 的 东西 都 是 类 似 的 ,可 以 
归 为 同一 类 。 我 们 也 知道 它们 与 那些 咸 的 东西 有 多 大 不 同 。 我 们 会 不 自觉 地 把 味道 归 为 这 种 簇 
(cluster )， 这 样 就 有 了 甜 味 和 咸 味 的 簇 ， 每 个 簇 中 都 包含 上 百 种 东西 。 

在 自然 界 , 我 们 可 以 观察 到 其 他 很 多 种 群 。 例 如 猿 和 猴子 ,它们 同属 于 灵 长 类 。 但 所 有 的 猴 
子 都 具有 相同 的 特征 ， 如 较 矮 的 身材 、 长 尾巴 和 扁平 的 鼻子 ,而 猿 则 具有 更 大 的 体型 、 更 长 的 腹 
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是 两 种 的 种 群 , 也 可 以 认为 它们 都 属于 喜欢 香蕉 的 灵 长 类 动物 。 是否 可 以 将 事物 归 成 一 个 簇 , 这 
完全 取决 于 我 们 在 考量 它们 之 间 相 似 性 时 所 选择 的 特征 参数 ( 在 这 个 例子 里 则 是 灵 长 类 )。 

这 一 章 , 你 将 了 解 聚 类 是 什么 ， 聚 类 是 怎样 与 数学 中 的 概念 相 联系 的 ,并 看 到 Mahout 中 的 聚 
类 示例 。 现 在 ， 让 我 们 从 了 解 基 本 概念 开始 吧 。 


7.1 聚 类 的 基本 概念 


那么 , 聚 类 过 程 是 怎样 的 呢 ? 假如 你 掌管 着 一 个 有 几 千 本 藏书 图 书馆 的 钥匙 ,而 这 些 书 的 摆 
放 又 毫 无 规律 可 言 。 那 么 进入 图 书馆 的 读者 就 不 得 不 从 所 有 的 书 中 一 本 一 本 地 去 找 他 想 要 的 书 。 
这 样 不 仅 非常 麻烦 低 效 ， 而 且 很 乏味 。 

如 果 把 这 些 书 按 书 名 字母 顺序 来 分 类 , 这 对 于 通过 书 名 来 查找 书籍 的 读者 会 有 很 大 帮助 。 但 
如 果 大 多 数 人 都 只 是 想 简单 地 浏览 图 书 , 或 是 想 研 究 一 个 很 笼统 的 主题 , 这 时 该 如 何 应 对 呢 ? 因 
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此 , 按照 主题 对 书籍 分 类 会 比 按照 书 名 字母 排序 更 有 用 。 但 是 这 种 分 类 该 从 何 做 起 呢 ? 假如 你 刚 
刚 接手 这 项 工作 ,其 至 还 不 知道 这 些 书 都 涉及 什么 内 容 一 一 网 上 冲浪 、 言 情 小 说 ， 亦 或 讨论 的 是 
一 些 你 从 未 遇 到 过 的 主题 。 

要 实现 基于 主题 的 分 类 ,你 可 以 把 所 有 书籍 摆 成 一 排 ， 然 后 一 本 一 本 的 读 。 直 到 读 到 一 本 书 
并 发 现 它 的 内 容 与 之 前 某 本 书 相 似 , 你 就 可 以 把 这 本 书 放 过 去 , 将 它们 堆 在 一 起 。 当 你 把 所 有 书 
全 部 读 完 以 后 ， 就 会 有 几 百 堆 书 ， 而 不 是 几 千 本 散 放 的 书 。 

非常 好 ! 这 是 你 关于 聚 类 的 第 一 次 体验 。 如 果 你 觉得 上 百 个 主题 太 多 了 ,可 以 回 到 起 点 , 重 
复 前 面 把 书 分 成 堆 的 过 程 ， 直 至 书 堆 的 主题 之 间 具 有 足够 的 差异 。 

聚 类 就 是 将 一 个 给 定 文 档 集 (collection) 中 的 相似 项 目 分 成 不 同 簇 的 过 程 。 我 们 可 以 将 这 些 
簇 看 做 一 组 簇 内 相似 而 簇 间 有 别 的 项 目的 集合 。 

对 文档 集聚 类 涉及 如 下 三 件 事 。 

口 一 个 算法 “即将 书 组 织 在 一 起 的 方法 。 

口 相似 性 和 不 相似 性 的 概念 ”在 前 面 的 讨论 中 ， 我 们 依赖 于 你 对 这 些 书 的 判断 ， 即 哪些 书 

属于 一 个 已 有 的 书 堆 ， 或 是 否 应 该 开始 弄 一 个 新 的 书 堆 。 

口 停止 的 条 件 ”在 这 个 图 书馆 的 例子 中 ， 有 一 个 关键 节点 ， 即 在 此 之 后 ， 书 不 能 再 加 入 书 

堆 ， 或 者 这 些 书 堆 之 间 已 经 具有 明显 不 同 的 主题 。 

目前 为 止 , 我 们 认为 对 项 目 聚 类 就 是 把 它们 堆 在 一 起 , 但 实际 上 就 是 对 它们 进行 了 分 组 。 而 
从 概念 上 看 ， 聚 类 更 接近 于 寻找 哪些 项 目 可 以 形成 相近 的 组 ， 然 后 把 它们 圈 起 来 。 图 7-1 给 出 了 
在 一 个 标准 x-y 平 面 上 点 的 聚 类 示意 图 ， 每 个 圆圈 代表 一 个 簇 ， 每 个 入 包含 了 多 个 点 。 


ff 0 
本 
aa 
HE 2 
$1 
x 轴 
图 7-1 在 x 平面 上 的 点 。 圆 圈 代 表 簇 ， 而 平面 上 的 点 可 视 为 三 个 逻辑 组 。 
聚 类 算法 有 助 于 确认 这 些 组 


在 这 个 简单 示例 中 , 圆圈 清晰 地 展示 了 一 种 最 佳 聚 类 , 它 基于 距离 远近 , 将 点 划分 成 三 个 簇 。 
这 些 圆 圈 能 让 我 们 很 好 地 理解 复 , 这 是 因为 簇 也 是 由 中 心 点 和 半径 来 定义 的 。 圆圈 的 中 心 点 称 作 
X-MEN Ps (centroid), 或 平均 值 ( mean 或 average)。 这 个 点 的 坐标 值 就 是 这 个 簇 中 所 有 点 x 和 
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坐标 值 的 平均 值 。 

本 章 ,我 们 把 聚 类 设想 成 一 个 几何 问题 , 且 还 会 运用 几何 学 技巧 来 解释 各 种 距离 的 度量 方法 ， 
它们 是 聚 类 算法 的 核心 。 我 们 还 会 关注 几 个 重要 的 距离 测度 方法 以 及 它们 与 聚 类 的 关系 。 这 将 有 
助 于 你 理解 文本 文件 的 聚 类 与 平面 上 点 的 聚 类 是 何其 相似 。 

在 后 面 的 章节 里 ,我 们 会 探讨 一 些 数据 聚 类 时 的 常用 方法 ,以 及 它们 在 Mahout 中 的 软件 实现 。 
在 图 书馆 案例 中 采用 的 策略 是 合并 书 堆 直 到 达到 某 个 浆 值 。 这 个 例子 中 的 复 个 数 取 决 于 这 些 数 
据 ; 根据 书 的 个 数 和 阔 值 的 不 同 ， 可 能 会 有 100 个 、20 个 簇 ， 也 可 能 只 有 1 个 徐 。 更 为 常见 的 策略 
是 设 定 一 个 徐 的 目标 数量 ， 而 不 是 使 用 阀 值 ， 然 后 就 在 这 个 限制 下 找到 最 佳 的 组 合 。 稍 后 ,我 们 
详细 诠释 这 种 方法 和 一 些 变种 。 


7.2 项 目 相 似 性 度量 


聚 类 的 关键 在 于 寻找 一 个 可 以 量化 任意 两 个 数据 点 之 间 相 似 性 的 函数 。 要 注意 我 们 在 整 本 书 
中 使 用 的 两 个 术语 : 物品 (item ) 和 点 (point )， 它 们 是 可 以 互相 替换 的 ， 都 是 指 一 个 要 被 聚 类 
的 数据 单元 。 

在 x--y 平 面 的 例子 中 ,对 那些 点 的 相似 性 度量 (similarity metric ) 是 指 两 个 点 之 间 的 欧 氏 距 
离 。 图 书馆 的 例子 就 没有 如 此 明确 的 数学 度量 方法 ， 而 是 完全 依赖 于 图 书 管理 员 的 智慧 来 判断 
书籍 之 间 的 相似 性 。 这 实际 上 并 不 满足 我 们 的 需求 ， 因 为 我 们 要 的 是 一 个 可 以 在 计算 机 上 实现 
的 度量 方法 。 

一 种 可 能 的 度量 方法 是 基于 两 本 书 的 书 名 中 相同 词 的 数量 。 例如 Harry Potter: The Philosopher’ s 
Stone#llHarry Potter: The Prisoner of 4zkaban 两 本 书 的 书 名 中 有 3 个 共同 词 : Harry、Potter 和 The。 
然而 用 这 种 相似 性 度量 方法 就 无 法 找到 The Lord of the Rings: The Two Towers 与 Harry Potter 系 列 的 
相似 性 , 尽管 它们 是 相似 的 书籍 。 你 必须 修改 相似 性 的 度量 方法 , 使 其 能 够 顾及 书籍 本 身 的 内 容 。 
你 可 以 收集 每 本 书 的 词 频 , 如 果 这 些 书 的 词汇 交集 中 有 很 多 单词 的 词 频数 都 比较 接近 ,就 可 以 判 
断 这 些 书 是 相似 的 。 

但 遗憾 的 是 , 说 起 来 容易 做 起 来 难 。 不 仅 因 为 这 些 书 一 般 都 有 好 几 百 页 还 因为 英语 的 语言 

寺 性 本 身 也 会 让 这 种 度量 变 得 混乱 。 英 语 中 最 常用 的 一 些 词 ， 如 a、an 和 the， 它 们 虽然 总 会 在 两 
本 书 中 经 常 出 现 ， 但 很 难说 明 这 两 本 书 是 相似 的 。 

为 了 减少 这 些 词 的 影响 , 你 可 以 在 计算 的 时 候 使 用 数值 权重 ,给 这 些 词 较 低 的 权重 以 减少 它 
们 对 相似 值 的 影响 。 你 应 该 赋予 在 大 多 数 书籍 中 都 会 出 现 的 词 较 低 的 权重 , 而 给 那些 只 出 现在 少 
数 几 本 书 中 的 词 较 高 的 权重 。 对 于 会 在 某 种 特定 书籍 中 才 经 常 出 现 的 词 , 你 也 可 以 给 予 它们 较 高 
的 权重 ， 因 为 这 些 词 往往 会 明显 地 提示 出 书籍 的 内 容 ， 例 如 Harry Potter 系 列 中 的 magic。 

一 旦 你 对 一 本 书 中 的 每 个 词 都 给 出 了 权重 ， 那 么 两 本 书 之 间 的 相似 性 就 是 在 所 有 单词 上 的 求 
和 一 一 某 个 特定 词 的 出 现 频率 乘 以 它们 的 权重 。 这 是 一 个 不 错 的 度量 方法 ,如 果 这 两 本 书 一 样 长 
的 话 。 

如 果 一 本 书 是 300 页 ， 而 男 一 本 书 是 1000 页 ， 又 会 怎样 呢 ? 的 确 ， 一 般 来 说， 较 长 的 书 会 有 
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较 大 的 单词 计数 。 你 需要 确保 单词 的 权重 与 文章 的 长 度 相 关 。 给 任意 一 段 话 中 的 单词 赋予 权重 ， 
其 本 身 就 是 一 门 学 问 。 

TF-IDF ( Term Frequency-Inverse Document Frequency， 词 项 频率 - 逆 文 档 频率 ) 这 个 常用 加 
权 方 法 中 包含 了 上 述 这 些 技巧 以 及 许多 其 他 技巧 。 本章 会 从 平面 上 的 点 开始 讨论 , 之 后 的 几 章 会 
推进 到 对 加 权 方 法 的 理解 ， 进 而 会 深入 到 TF-IDF， 探 究 对 上 聚 类 质量 的 有 影响。 下面， 我 们 从 一 个 
Hello World 聚 类 示例 开始 。 


7.3 Hello World: 运行 一 个 简单 的 聚 类 示例 


Mahout 包 含 聚 类 的 多 种 实现 ， 如 k-means、 模 糊 k-means (fuzzy k-means ) 和 canopy 等 。Hello 
World 示 例会 运行 k-means 算法 ， 而 后 续 各 章 将 审视 Mahout 中 的 其 他 算法 及 其 实际 应 用 。 


7.3.1 生成 输入 数据 


首先 ， 让 我 们 看 一 个 简单 的 示例 : 对 图 7-1 中 二 维 空间 中 的 点 进行 聚 类 。 

我 们 首先 创建 一 个 点 的 列表 以 便 聚 类 , Mahout 的 聚 类 算法 的 输入 数据 以 一 种 特殊 的 二 进 制 格 
式 存 储 ， 称 为 SeauenceFile， 这 是 一 种 Hadoop 常 用 的 格式 。 输 入 数据 写 人 多 个 vector 中 ， 每 
个 Vector 代 表 一 个 点 。 


代码 清单 7-1 ”第 一 个 聚 类 示例 中 的 输入 样本 


| 


看 一 下 代码 清单 7-1 中 的 输入 数据 样本 。 图 7-2 将 之 画 在 x 平面 上 , 可 清晰 地 分 出 两 个 簇 。 一 
个 簇 包含 平面 上 一 个 区 域 中 的 5 个 点 ， 男 一 个 包含 男 一 个 区 域 中 的 4 个 点 。 

为 Mahout 聚 类 算法 输入 数据 的 过 程 有 三 个 步骤 : 预 处 理 数据 , 使 用 数据 生成 向 量 , 以 及 存 为 
SequenceFile 格 式 。 对 于 点 ( point ) 而 言 ， 不 需要 做 预 处 理 ， 因 为 它们 已 经 是 二 维 平 面 的 向 
你 只 需要 将 之 转换 为 一 个 Mahout 的 Vector 类 。 

当 听 到 向量 (vector) 这 个 词 时 ， 你 可 能 会 想起 高 中 物理 课 ， 向 量 在 当时 是 指 带 有 方向 的 箭 
头 ， 而 不 是 空间 上 和 孤立 的 点 。 在 机 器 学 习 领 域 中 ,向 量 这 个 词 指 的 是 一 个 有 序 的 数列 ， 它 究竟 是 
一 个 点 还 是 物理 学 的 向 量 并 不 重要 。 疝 量 有 许多 维度 ( 这 里 是 两 维 )， 每 个 维度 都 有 一 个 数值 。 


E. 
里 


提示 附录 B 解 释 了 Vector 接 口 及 其 实现 的 一 些 细节 ; 必要 时 参考 该 附录 可 以 更 好 地 理解 
Mahout 表 达 向 量 的 方式 。 在 我 们 的 示例 中 ， 这 些 细节 还 不 是 很 重要 。 
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在 后 续 各 节 中 ， 我 们 会 使 用 Mahout 来 聚 类 二 维 空间 上 的 点 。getPoints 函 数 被 用 来 将 给 定 
的 输入 点 集合 转换 为 RandomaccessSsparseVector 格 式 。 一 旦 生成 了 这 些 向 量 ， 它 们 会 被 写 为 
SedquenceFile 格 式 ， 以 便 Mahout 中 的 聚 类 算法 可 以 读 懂 。 这 个 过 程 在 writePointsToEile 函 
数 中 实现 。 
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图 7-2 ”在 zx- 平面 显示 代码 清单 7-1 中 的 输入 数据 点 


7.3.2 ”使 用 Mahout 聚 类 


一 旦 准备 好 输入 ， 就 可 以 对 数据 点 进行 聚 类 了 。 这 个 示例 中 ， 我 们 使 用 k-means 聚 类 算法 ， 
取 如 下 输入 参数 。 
口 包含 输入 向 量 的 SequenceFile。 
O 包含 初始 聚 类 中 心 点 的 SequenceFile。 在 本 示例 中 , 我 们 初始 化 两 个 簇 , 因此 会 有 两 个 
中 心 。 
口 所 用 的 相似 性 度量 。 这 里 我 们 使 用 EuclideanDistanceMeasure 作 为 度量 相似 性 的 方 
法 ， 本 章 稍 后 也 会 讨论 其 他 的 相似 性 度量 方法 。 
O convergenceThreshold。 如 果 在 某 次 迭代 中 ， 簇 中 心 的 变化 没有 超过 这 个 国人 值 ， 则 不 
EHA FAKER. 
O 迭代 次 数 。 
口 输入 文件 中 使 用 的 Vector 实 现 。 
万 事 俱 备 ， 只 差 初 始 的 簇 中 心 。 要 从 9 个 点 中 生成 两 个 复 ， 你 需要 两 个 点 作为 篮 中 心 ， 如 图 
7-3 所 示 。 尽 量 让 这 两 个 点 是 k-means 算法 所 要 寻找 的 两 个 簇 中 心 的 最 佳 猜测 。 
当然 ,你 会 发 现 这 样 的 猜测 不 太 准 ; 它们 通常 会 落 入 其 中 一 个 簇 中 。 遗 憾 的 是 , 在 重要 的 案 
例 中 , 没有 办 法 预先 知道 徐 的 位 置 。 估 计 簇 中 心 的 方法 有 很 多 一 一 其 中 canopy 聚 类 算法 可 以 又 快 
又 好 地 给 出 估计 值 。 
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图 7-3 ”指定 初始 艇 是 k-means 聚 类 中 的 重要 一 步 


即便 估计 的 中 心 有 误差 ,k-means 算法 也 可 以 纠正 它 ， 在 每 次 迭代 的 最 后 都 会 计算 簇 中 所 有 
点 的 平均 中 心 , 或 称 为 中 心 点 (centroid). 为 了 显示 k-means 的 这 种 纠 错 性 质 , 你 可 以 选择 两 个 靠 
得 很 近 的 中 心 点 一 一 (1, 1) 和 (2, 1)。 你 也 可 以 尝试 输入 不 同 的 中 心 值 ， 来 看 一 看 k-means 是 如 何在 
各 种 情况 下 使 中 心 收敛 的 。 

下 面 清单 中 的 代码 以 in-memory 模 式 使 用 Mahout 的 kmeans， 对 平面 上 点 的 集合 进行 聚 类 。 


代码 清单 7-2 Hello World 聚 类 代码 


public static final double[][] points = { {1, 1}, {2, 1}, {1, 2}, 
{2, 2}, (3, 3}, {8, 8}, 
(9, 8}, {8, 9}, (9, 9}; 


public static void writePointsToFile(List<Vector> points, 
String fileName, 
FileSystem fs, 
Configuration conf) throws IOException { 
Path path = new Path(fileName) ; 
SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf, 
path, LongWritable.class, VectorWritable.class) ; 
long recNum = 0; 
Vectorwritable vec = new VectorWritable(); 
for (Vector point : points) { 
vec.set (point) ; 
writer.append(new LongWritable(recNum++), vec); 
} 
writer.close(); 


} 


public static List<Vector> getPoints(double[][] raw) { 
List<Vector> points = new ArrayList<Vector>(); 
for (int i = 0; i < raw.length; i++) { 
double[] fr = raw[i]; 
Vector vec = new RandomAccessSparseVector(fr.length) ; 
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vec.assign(fr); 
points.add(vec) ; 
} 
return points; 


} 


public static void main(String args[]) throws Exception { 指定 所 要 形成 的 


ET 


int k = 2; 


List<Vector> vectors = getPoints (points); 


“| 为 数据 创建 输入 目录 


File testData = new File("testdata"); 

if (!testData.exists()) { 
testData.mkdir(); 

} 

testData = new File("testdata/points"); 

if (!testData.exists()) { 
testData.mkdir(); 

} 

Configuration conf = new Configuration(); 

FileSystem fs = FileSystem.get (conf); 

writePointsToFile(vectors, 

"testdata/points/filel", fs, conf); < 一 一 写 入 初始 中 心 点 


Path path = new Path("testdata/clusters/part-00000"); 
SequenceFile.Writer writer 
= new SequenceFile.Writer ( 
fs, conf, path, Text.class, Cluster.class); 


for (int i = O; i < k; i++) { 
Vector vec = vectors.get(i); 
Cluster cluster = new Cluster ( 
vec, i, new EuclideanDistanceMeasure()); 
writer.append(new Text(cluster.getIdentifier()), cluster); 
} 


writer.close(); 


KMeansDriver.run(conf, new Path("testdata/points"), aah : 
new Path("testdata/clusters"), 运行 k-means 算法 
new Path("output"), new EuclideanDistanceMeasure(), 


0.001, 10, true, false); 


SequenceFile.Reader reader 
= new SequenceFile.Reader(fs, 
new Path("output/" + Cluster.CLUSTERED_POINTS_DIR 
+ "/part-m-00000"), conf); 


IntWritable key = new IntWritable(); 
WeightedVectorWritable value = new WeightedVectorWritable(); 
while (reader.next(key, value)) { 
System.out.println ( 
value.toString() + " belongs to cluster " 


+ key.toString()); 读 取 输出 ， 打 印 
} E 2 ANID 


reader.close(); 
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图 7-4 的 流程 图 清晰 地 显示 了 代码 清单 7-2 所 做 的 工作 。 


利用 输入 数据 生成 向 车 


Minh Fl oe HRA he 


图 7-4 ”最 基础 的 聚 类 示例 流程 图 


7.3.3 分析 输出 结果 


使 用 你 习惯 的 IDE 或 从 命令 行 中 编译 并 运行 代码 清单 7-2 中 的 代码 : 确保 所 有 Mahout 依 赖 的 
JAR 文 件 都 放 在 classpath 中 了 。 因 为 我 们 的 数据 集 不 大 ， 你 可 以 在 几 秒 钟 内 得 到 如 下 的 输出 结果 


1.0: [1.000, 1.000] belongs to cluster 0 
1.0: [2.000, 1.000] belongs to cluster 0 
1.0: [1.000, 2.000] belongs to cluster 0 
1.0: [2.000, 2.000] belongs to cluster 0 
deps 3.000, 3.000] belongs to cluster 0 
.0: [8.000, 8.000] belongs to cluster 1 
.0: [9.000, 8.000] belongs to cluster 1 
1.0: [8.000, 9.000] belongs to cluster 1 
.0: [9.000, 9.000] belongs to cluster 1 


代码 清单 72 用 字符 串 标识 符 (tring identifier) 来 唯 _ 标 记 每 个 向 量 。 这 有 助 于 你 以 后 评估 和 重 构 
这 个 艇 。 从 图 7-5 可 以 看 到 ， 这 个 算法 可 以 把 簇 的 中 心 从 (2, 1) 调 整 到 (8.5, 8.5) 一 一 簇 1 中 所 有 点 的 中 心 。 
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图 7-5 ”一 个 最 简单 的 k-means 聚 类 算法 的 输出 。 即 使 初始 的 中 心 比较 远 ，k-means 
算法 也 能 够 基于 欧 氏 距离 测度 正确 迭代 ， 并 对 中 心 点 进行 纠正 


(a) 


No. 7 
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在 这 个 简单 的 示例 中 , Mahout 将 这 些 点 快速 而 准确 地 分 到 两 个 集合 中 。 实际 场景 中 的 数据 不 
会 如 此 简单 。 对 于 包含 上 百 万 个 输入 向 量 ， 而 每 个 向 量 又 包含 上 百 万 个 维度 的 数据 ,快速 地 聚 类 
就 变 得 不 那么 轻松 , 会 出 现 质量 和 性 能 上 的 问题 。 决 定 生成 多 少 簇 、 或 者 选择 哪 种 相似 性 度量 将 
变 得 很 困难 。 此 外 ,还 需要 花 大 力气 来 调 优 性 能 以 及 评估 簇 的 质量 。 要 知道 ,实现 一 个 完美 的 聚 
类 是 一 项 永 无 止境 的 工作 。 


7.4 探究 距离 测度 


Mahout 聚 类 的 实现 是 可 以 灵活 配置 的 , 它 足 以 胜任 几乎 所 有 的 聚 类 问题 ,但 是 关键 问题 在 于 ， 
到 底 哪 种 配置 才 是 最 优 的 ? 这 里 面 的 一 个 核心 因素 是 距离 测度 的 选择 。 

在 之 前 的 示例 中 ， 我 们 使 用 EuclideanDistanceMeasure 来 计算 点 和 点 之 间 的 距离 。 虽 然 
这 被 证 明 是 生成 簇 的 一 种 有 效 的 度量 手段 , 但 在 Mahout 聚 类 包 中 还 实现 了 其 他 的 相似 性 度量 。 这 
些 DistanceMeasure 类 恰 如 其 名 ’ 它们 根据 各 种 对 距离 的 定义 来 计算 两 个 向 量 之 间 的 距离 o 问 
量 之 间距 离 越 短 则 越 相似 ， 反 之 亦 然 ;相似 性 和 距离 在 概念 上 是 相互 关联 的 。 


7.4.1 欧 氏 距离 测度 


我 们 已 经 认识 了 欧 氏 距离 (Euclidean distance ), 它 是 所 有 距离 测度 中 最 简单 的 。 它 最 直观 日 
符合 我 们 通常 对 距离 的 理解 。 例 如 ,给 定 平 面 上 的 两 个 点 , 欧 氏 距离 测度 可 以 通过 使 用 一 个 标尺 
来 计算 出 它们 之 间 的 距离 。 数 学 上 ， 两 个 n 维 向 量 (al, a;…, afi, bz, bw) 之 间 的 欧 氏 距离 表 
示 为 : 

d= V(a —b, y +(a, —b,) 十 … 十 (Ga，。 —b,) 
实现 这 个 度量 的 Mahout 类 为 EuclideanDistanceMeasure。 
7.4.2 平方 欧 氏 距离 测度 


正如 名 称 所 示 , 这 种 距离 测度 的 值 是 欧 氏 距离 的 平方 。 对 于 n 维 向 量 (a1, az, a) FID), b2,…， 
bn), 其 距离 表示 为 : 


d= (a -B&B +(a, =hF +-+-+(a, —b,)” 
实现 这 个 度量 的 Mahout 类 为 SquaredEucl ideanDistanceMeasure。 
7.4.3 ”曼哈顿 距离 测度 


不 同 于 欧 氏 距离 ， 在 曼哈顿 距离 测度 (Manhattan distance measure) 中 ， 两 个 点 之 间 的 距离 
是 它们 坐标 差 的 绝对 值 之 和 。 图 7-6 比 较 了 在 x--y 平 面 上 两 个 点 的 欧 氏 距离 和 曼哈顿 距离 。 
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y it 


5.65 ( 欧 氏 距离 ) 


(0, 0) x 4h 
图 7-6” 欧 氏 距 离 和 曼哈顿 距离 之 间 的 区 别 。 在 (2,2) 和 (6,6) 之 间 的 欧 氏 距 
离 为 5.65， 而 曼哈顿 距离 为 8.0 
这 个 距离 测度 的 名 字 取 自 旺 网 格 状 的 曼哈顿 街区 。 任何 纽约 人 都 知道 ,你 不 能 直接 穿越 建筑 
从 第 2 大 道 第 2 街区 走 到 第 6 大 道 第 6 街区 。 实 际 步行 距离 为 4 个 街区 再 加 4 个 街区 。 数 学 上 ， 两 个 n 
维 向 量 (a, az, an) F(b, b2,…, b;) 之 间 的 曼哈顿 距离 表示 为 : 


d=|a,—b|+|a, —b,|+---+ 


a, = b,| 
实现 这 个 度量 的 Mahout 类 为 ManhattanDistanceMeasure。 
744 余弦 距离 测度 


余弦 距离 测度 需要 我 们 仍 将 这 些 点 视 为 从 原点 指向 它们 的 向 量 。 这 些 向 量 之 间 形 成 了 一 个 夹 
角 9， 如 图 7-7 所 示 。 


图 7-7 向 量 (2,3) 和 (4,1) 之 间 的 余弦 夹 角 (以 原点 为 项 点 ) 
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当 夹 角 较 小 时 , 这 些 向 量 都 会 指向 大 致 相同 的 方向 , 因此 这 些 点 非常 接近 。 当 夹 角 非常 小 时 ， 
这 个 夹 角 的 余弦 接近 于 1, 而 随 着 角度 变 大 , 余弦 值 递减 。 余弦 距离 公式 用 1 减 去 余弦 值 来 得 到 一 
个 合理 的 距离 ， 这 样 0 代 表 距 离 最 近 ， 而 值 越 大 则 距离 越 远 。 

两 个 n 维 向 量 (aj, qa2,…, an) Ab, ba, …, 四 ) 之 间 的 余弦 距离 公式 为 : 


(a,b, + a,b, +: +a,b,) 


ea +a, 十 … 十 Qi nie +b, +: +b? )) 


注意 , 这 种 距离 测度 不 考虑 两 个 向 量 的 长 度 ， 只 关注 于 从 原点 到 这 两 个 点 的 方向 。 还 需要 注 
意 余弦 距离 测度 的 范围 是 从 0.0〔 两 个 向 量 方向 相同 ) 22.0 ( 两 个 向 量 方向 相反 )。 
实现 这 个 度量 的 Mahout 类 为 CosineDistanceMeasure。 


7.4.5” 谷 本 距离 测度 


余弦 距离 测度 忽略 了 向 量 的 长 度 。 这 适用 于 某 些 数据 集 , 但 是 在 其 他 情况 下 可 能 会 导致 糟糕 
的 聚 类 结果 ， 因 为 向 量 的 相对 长 度 也 会 包含 有 价值 的 信息 。 

例如 ， 考 虑 三 个 向 量 A(1.0, 1.0)、B (3.0, 3.0) 和 C (3.5, 3.5)。 因 为 它们 指向 相同 的 方向 ， 任 意 
两 个 向 量 之 间 的 余弦 距离 均 为 0.0。 余 弦 距 离 无 法 看 出 B 和 C 之 间 更 为 接近 。 欧 氏 距 离 测度 可 以 很 
好 地 反映 出 这 种 差距 , 但 它 不 会 考虑 向 量 之 间 的 夹 角 一 一 即 它 们 方向 相同 的 事实 。 有 时 ,你 也 许 
希望 找到 一 种 可 以 同时 表现 夹 角 和 距离 的 距离 测度 。 

谷 本 距离 测度 (Tanimoto distance measure )， 也 称 为 Jaccard 距 离 测 度 ， 可 以 同时 表现 点 与 
点 之 间 的 夹 角 和 相对 距离 信息 。 两 个 n 维 向 量 (a1, an, an) 和 (bp b;) 之 间 的 谷 本 距离 测度 
ARN: 


(a,b, +a,b, +" tae 
Te +a, 十 :十 ?)+ V(b? +b, ++b,)—(ab +a,b, +---+4,,) 


实现 这 个 度量 的 Mahout 类 为 TanimotoDistanceMeasure。 


7.4.6 WAERME 


Mahout 还 提供 了 一 个 WeightedDistanceMeasure 类 ， 以 及 基于 它 的 欧 氏 距离 和 曼哈顿 距 
离 测度 实现 。 加 权 的 距离 测度 是 Mahout 中 的 一 种 高 级 特性 , 允许 对 不 同 的 维度 加 权 从 而 提高 或 减 
小 某 些 维度 对 距离 测度 值 的 影响 。 在 WeightedDistanceMeasure 中 的 权重 需要 以 Vector 格 式 
序列 化 到 一 个 文件 中 。 

例如 ， 当 计算 x 平面 点 和 点 之 间 的 距离 时 ,假设 你 想 让 x 坐标 的 影响 是 y 坐 标的 两 倍 。 当 然 ， 
你 可 以 让 所 有 的 x 坐标 值 加 倍 。 但 要 通过 加 权 距 离 测 度 的 方式 实现 ， 你 就 需要 构建 一 个 权重 
Vector， 其 第 0 个 元 素 的 值 为 2.0 (用 于 x )， 第 1 个 元 素 的 值 为 1.0 (用 于 y )。 这 会 对 不 同 距 离 测 
度 产 生 不 同 的 影响 ， 但 通常 会 让 距离 值 对 x 值 的 变化 更 为 敏感 。 


7.5 在 简单 示例 上 使 用 各 种 距离 测度 


分 别 使 用 欧 氏 、 曼 哈 顿 、 余 弦 和 谷 本 距离 测度 来 运行 前 面 那个 最 基本 的 k-means 聚 类 程序 ， 
选择 三 2( 生成 两 个 艇 )。 所 得 结果 如 表 7-1 所 示 。 


表 7-1 ”使 用 不 同 距离 测度 的 聚 类 结果 


距离 测度 和 迭代 次 数 簇 0 中 的 向 量 ” ie 1 PAY fe) 
EuclideanDistanceMeasure 3 0, 1, 2, 3,4 5,6, 7,8 
SquaredEuclideanDistanceMeasure 5 0, 1, 2, 3,4 5,6, 7,8 
ManhattanDistanceMeasure 3 0, 1, 2, 3,4 5,6, 7,8 
CosineDistanceMeasure 1 1 0,2,3,4, 5,6,7,8 
TanimotoDistanceMeasure 3 0, 1,2,3,4 5,6,7,8 


a. 它们 是 最 基本 聚 类 程序 Hello World 源 代码 中 的 向 量 名 /ID 


余弦 距离 测度 聚 类 的 结果 有 点 让 人 费解 。 在 图 7-2 中 , 你 可 以 看 到 只 有 点 (2, 1) 和 x 轴 的 夹 角 大 
于 45°。 因 此 ， 聚 类 算法 将 小 于 和 等 于 45° 的 所 有 其 他 点 形成 一 个 簇 。 这 并 不 是 说 余弦 距离 测度 是 
糟糕 的 一 一 只 是 它 对 这 个 数据 集 不 适用 。 比 如 ， 在 文本 聚 类 等 领域 中 ， 它 就 表现 得 非常 出 色 。 

使 用 squaredEuclideanDistanceMeasure 增 加 了 壕 代 的 次 数 。 这 是 因为 在 使 用 这 个 度量 
时 ,绝对 距离 值 变 得 更 大 ， 而 算法 仍 使 用 较 小 的 convergenceThreshold 值 。 因 此 ， 这 使 得 达 
到 收敛 所 需 的 迭代 数 增加 了 一 倍 。 

以 后 的 章节 中 , 我 们 将 看 到 更 多 的 聚 类 方法 , 演示 它们 是 如 何 适用 于 各 种 数据 的 ， 并 解释 如 
何 使 用 各 种 距离 测度 来 同时 获得 速度 和 质量 上 的 优化 。 


7.6 小结 


本 章 , 我 们 介绍 了 聚 类 的 思想 。 我 们 使 用 了 一 个 直观 的 方法 来 聚 类 图 书馆 的 藏书 , 接着 使 用 
二 维 空间 上 的 点 给 出 了 聚 类 正式 的 定义 。 我 们 创建 了 平面 上 的 一 个 很 小 的 点 集 ， 并 使 用 
EuclideanDistanceMeasure 运 行 了 一 个 简单 的 k-means 聚 类 示例 。 

接 下 来 , 我 们 讨论 了 Mahout 中 的 各 种 距离 测度 。 有 了 它们 , 我 们 重新 运行 了 最 初 的 示例 并 比 
较 了 使 用 这 些 距离 测度 后 的 聚 类 结果 。 

在 详细 地 研究 聚 类 算法 之 前 ,我 们 需要 花 一 些 时 间 了 解 Mahout 中 的 基本 概念 一 一 如 何 表示 数 
据 。 这 就 是 下 面 要 讲 的 内 容 。 


聚 类 数据 的 表示 


本 章 内 容 

O 将 数据 表示 为 Vector 

口 将 文本 文件 转换 为 Vector 形式 
口 归 一 化 数据 表示 


为 了 得 到 好 的 聚 类 结果 ， 你 就 需要 大 致 了 解 向 量化 技术 : 即 把 对 象 表示 为 Vector 的 过 程 。 
Vector 是 一 种 非常 简单 的 数据 表示 方式 ， 它 可 以 帮助 聚 类 算法 理解 对 象 ， 并 计算 它 与 其 他 对 象 
之 间 的 相似 性 。 本 章 探讨 各 种 把 不 同类 型 对 象 转换 为 vector 的 方法 。 

在 上 一 章 , 你 已 经 对 聚 类 有 所 了 解 。 对 书籍 的 聚 类 是 基于 它们 在 单词 上 的 相似 性 ,对 二 维 平 
面 中 点 的 聚 类 是 基于 它们 之 间 的 距离 。 在 现实 中 ,， 聚 类 可 以 作用 于 任何 类 型 的 对 象 ， 只 要 你 能 区 
分 出 相似 点 和 不 同 点 即 可 。 对 图 像 的 聚 类 可 基于 颜色 、 形 状 ， 或 同时 基于 二 者 。 而 聚 类 照片 时 ， 
你 也 许 会 试图 将 动物 照片 与 人 的 照片 区 分 开 。 你 其 至 可 以 通过 动物 的 个 体 平均 大 小 、 重 量 和 腿 的 
个 数 自动 地 发 现 不 同 复 ， 从 而 对 它们 的 种 群 进行 聚 类 。 

作为 人 类 , 我 们 可 以 聚 类 这 些 对 象 是 因为 我 们 理解 它们 ， 而 我 们 “就 是 知道 ”什么 是 相似 的 
而 什么 不 是 。 不 幸 的 是 ,计算 机 没有 这 种 直觉 ,任何 通过 算法 的 聚 类 都 要 从 对 象 的 表示 开始 ,这 
样 我 们 才能 让 计算 机 可 以 读 懂 它们 。 

依据 可 衡量 的 特征 或 属性 来 考察 对 象 已 被 证 明 是 相当 实用 和 灵活 的 。 例 如, 个 体 大 小 和 重量 
是 两 个 显著 的 特征 ， 它们 可 以 帮助 我 们 理解 动物 相似 性 的 概念 。 每 个 对 象 (动物 ) 在 这 些 属性 上 
都 会 有 对 应 的 数值 。 

我 们 希望 把 对 和 象 描述 为 值 的 集合 ， 每 个 对 象 都 关联 到 一 个 显著 特征 集合 ,或 是 一 个 维度 集 
这 听 起 来 是 不 是 很 熟悉 ?我 们 又 在 描述 一 个 向 量 。 虽然 你 习惯 于 将 向 量 视 为 空间 中 的 箭 
头 或 点 ， 但 它们 其 实 就 是 有 序数 列 。 因 此 ， 它 们 才 可 以 很 轻松 地 表示 对 象 。 

在 上 一 章 中 , 我 们 已 经 讨论 了 如 何 对 向 量 进 行 聚 类 。 但 是 , 我 们 怎样 才能 在 Mahout 中 表示 向 
E? 在 此 之 前 , 我 们 又 怎样 由 对 象 得 到 向 量 ? 这 正 是 本 章 所 讨论 的 内 容 。 我 们 继续 从 数学 概念 出 
发 讨论 向 量 的 由 来 。 我 们 将 解释 如 何 把 要 聚 类 的 数据 转换 成 向 量 的 形式 , 并 通过 封装 使 之 能 够 为 
Mahout 所 理解 。 我 们 还 将 深入 讨论 文本 数据 以 及 一 些 重 要 的 概念 ， 如 加 权 ( weighting ) 和 归 一 化 
(normalization )。 最 后 ;我 们 基于 所 有 这 些 概 念 和 向 量化 的 路 透 社 新 闻 数 据 集 来 使 用 Mahout 库 。 
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8.1 向量 可 视 化 


你 可 能 在 许多 场景 中 见 过 向 量 这 个 词 。 在 物理 学 中 ,一 个 向 量 代表 一 个 力 的 大 小 和 方向 , 或 
者 一 个 移动 物体 ( 如 一 辆 汽车 ) 的 速度 。 在 数学 中 , 一 个 向 量 只 是 空间 中 的 一 个 点 。 这 两 种 表现 
形式 在 概念 上 是 非常 相近 的 。 

在 二 维 空间 ， 向 量 被 表示 为 一 个 有 序数 列 ， 每 个 维度 有 一 个 值 ， 如 (4, 3)。 图 8-1 给 出 了 这 些 
表现 形式 。 在 处 理 二 维 问题 时 ， 我 们 常常 将 第 一 个 维度 称 为 x， 而 把 第 二 个 维度 称 为 >， 但 这 对 
Mahout 而 言 并 不 重要 。 对 我 们 而 言 ， 一 个 向 量 可 以 有 2 个 、3 个 或 10 000 个 维度 。 第 一 个 是 维度 0， 
下 一 个 是 维度 1， 依 此 类 推 。 


图 8-1 在 物理 学 中 ,一 个 向 量 可 以 看 做 是 一 条 射线 ， 有 起 点 、 方 向 和 长 度 ， 并 且 表 示 了 大 
小 ， 如 速度 和 加 速度 等 。 在 几何 或 空间 上 ， 一 个 向 量 只 是 由 每 个 维度 的 权重 来 表示 
的 一 个 点 。 在 默认 情况 下 ， 向 量 的 方向 和 大 小 由 一 条 从 原点 (0, 0) 出 发 的 射线 来 表示 


8.1.1 将 数据 转换 为 向 量 
在 Mahout 中 , 向 量 被 实现 为 三 个 不 同 的 类 , 每 个 类 都 是 针对 不 同 场景 优化 的 :penseVector、 


RandomAccessSparseVector#llSequentialAccessSparseVector. 

口 DenseVector 可 被 视 为 一 个 double 型 的 数组 ， 其 大 小 为 数据 中 的 特征 个 数 。 因 为 不 管 数 
组 的 元 素 值 是 不 是 0, 数组 中 所 有 元 素 都 被 预先 分 配 了 空间 。 我们 称 之 为 密集 的 ( dense )。 

口 RandomAccessSparseVector 被 实现 为 integer 型 和 double 型 之 间 的 一 个 HashMap， 
只 有 非 零 元 素 被 分 配 空间 。 因 此 ， 这 类 向 量 称 为 稀疏 向 量 。 

O SequentialRAccessSparseVector 实 现 为 两 个 并 列 的 数组 ， 一 个 是 integez 型 ， 另 一 
个 是 aouble 型 。 其 中 只 保留 了 非 零 元 素 。 与 面向 随机 访问 的 RandomaccessSparse- 
Vector 不 同 ， 它 是 为 顺序 读 取 而 优化 的 。 

附录 B 清 晰 地 解释 了 它们 之 间 的 区 别 。 

这 三 种 实现 允许 你 灵活 地 选择 向 量 类 , 使 这 些 类 的 性 能 特性 能 够 适应 数据 特质 、 算 法 和 数据 
访问 方式 。 具 体 选 择 哪 种 实现 依赖 于 算法 。 如 果 算 法 要 对 向 量 的 值 做 许多 随机 插 人 和 更 新 ， 就 适 
合 使 用 像 DenseVector 或 RandomAccessSparseVector 这 样 支持 快速 随机 访问 的 实现 。 男 一 方 
面 ， 而 对 于 像 k-means 聚 类 这 样 反 复 计 算 向 量 大 小 的 算法 ，sSequentialAccessSparseVector 
实现 的 执行 速度 就 会 比 RandomAccessSparseVector 更 快 。 


(a) 


No. 8 
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为 了 聚 类 对 象 ， 必 须 首 先 把 它们 转换 为 向 量 〈 将 它们 向 量化 )。 每 种 类 型 的 数据 都 有 独特 的 
向 量化 过 程 , 但 因为 本 书 在 这 里 讲述 的 是 聚 类 ,我们 只 谈论 聚 类 的 数据 转换 。 我 们 希望 读者 此 时 
已 经 可 以 容易 接受 把 对 象 视 为 某 种 z 维 向 量 的 方法 。 首 先 ， 对 象 需要 被 转换 为 一 个 向 量 ， 其 维度 
数 与 对 象 的 特征 个 数 相 同 。 让 我 们 用 一 个 示例 来 说 明 。 

假设 你 想 对 一 堆 芋 果 进 行 聚 类 。 它 们 有 不 同 的 形状 、 大 小 和 颜色 〈 红 色 、 黄 色 和 绿色 )， 如 
图 8-2 所 示 。 首 先 ， 你 需要 定义 一 种 距离 测度 方法 来 说 明 两 个 苹果 是 相似 的 ， 只 要 它们 仅 在 少数 
特征 上 有 不 同 ， 且 差别 较 少 。 相 比 于 一 个 大 的 、 卵 型 的 、 绿 色 的 苹果 ,一 个 小 的 、 贺 的、 绿色 的 


苹果 与 一 个 小 的 、 圆 的 、 红 色 的 苹果 更 相似 。 


图 8-2 不 同 大 小 和 颜色 的 苹果 需要 转换 成 恰当 的 向 量 形式 。 雇 窍 在 于 找到 如 何 将 苹果 
的 不 同 特征 转化 为 十 进 制 数值 的 方法 


在 向 量化 的 过 程 中 , 首先 需要 将 特征 对 应 到 维度 上 。 让 我 们 将 重量 ( weight ) 作 为 特征 ( 4E 
度 ) 0、 颜 色 (color) 为 1 而 大 小 (size) 为 2。 描 述 一 个 小 的 、 贺 的、 红色 的 苹果 的 向 量 可 表 
示 为 : 

[0 => 100 gram, 1 => red, 2 => small] 

但 这 个 向 量 还 没有 数值 ， 而 这 又 是 需要 的 。 

对 于 维度 0， 你 需要 将 重量 表示 为 数字 。 这 可 以 简单 地 用 克 (gram) 或 千克 (kilogram) 来 
测量 。 大 小 ( 维度 2 ) 未 必 能 够 等 价 于 重量 。 我 们 都 知道 ， 绿 色 的 苹果 可 能 由 于 是 新 鲜 的 ， 而 比 
红 苹 果 的 密度 更 高 。 此 外 还 可 以 使 用 密度 作为 维度 ， 只 要 我 们 有 工具 可 以 测量 它 。 男 一 方面 ， 
大 小 可 被 置 为 人 为 观察 到 的 数字 : 小 苹果 大 小 的 值 可 以 为 1、 中 型 苹果 的 大 小 为 2， 而 大 苹果 的 
大 小 为 3。 

对 于 颜色 (维度 1 ) 该 怎么 办 呢 ? 你 可 以 为 颜色 分 配 任意 的 数字 ， 比 如 红色 =0.0， 绿 色 =1.0， 
黄色 =2.0。 这 是 一 种 简单 直观 的 表示 方法 ; 它 适用 于 很 多 情况 ,但 它 没有 反映 出 这 样 一 个 事实 ， 
即 在 可 见 光谱 中 , 黄色 是 介 于 红色 和 绿色 之 间 的 颜色 。 我 们 可 以 通过 更 改 映射 关系 来 弥补 这 种 不 
E, 但 也 许 更 好 的 办 法 是 直接 用 该 颜色 的 波长 ( 400~650 nm )。 这 样 颜色 就 映射 为 一 个 有 意义 和 
客观 的 维度 值 。 

用 这 些 度量 值 作为 苹果 的 属性 ， 就 可 以 为 这 些 苹果 生成 向 量 ， 如 表 8-1 所 示 。 
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表 8-1 不 同 重量 、 大 小 和 颜色 的 苹果 数据 集 转换 为 向 量 
重量 (公斤 ) 颜色 大 小 


= oe (0) (1) (2) aes 
小 、 圆 、 绿 色 0.11 510 1 [0.11, 510, 1] 
大 、 椭 圆 、 红 色 0.23 650 3 [0.23, 650, 3] 
小 、 细 长 、 红 色 0.09 630 1 [0.09, 630, 1] 
大 、 圆 、 黄 色 0.25 590 3 [0.25, 590, 3] 
中 、 椭 圆 、 绿 色 0.18 520 2 [0.18, 520, 2] 


如 果 你 不 想 基于 颜色 的 相似 度 对 苹果 进行 聚 类 , 你 还 可 以 把 颜色 对 应 到 不 同 的 维度 上 。 这 就 
是 说 ， 红 色 为 维度 1， 绿 色 为 维度 3 和 黄色 为 维度 4。 如 果 苹 果 是 红色 的 ， 红 色 为 值 1 和 其 他 为 0。 
然后 可 以 用 稀 玻 的 格式 存储 这 些 向 量 , 而 距离 测度 只 会 考虑 这 些 维度 中 非 零 值 的 存在 , 并 将 这 些 
苹果 中 相同 颜色 的 聚 类 在 一 起 。 

我 们 所 选择 的 这 种 维度 值 映射 方法 有 一 个 潜在 的 问题 ， 即 维度 1 中 的 值 比 其 他 维度 大 得 多 。 
如 果 我 们 采用 一 个 简单 的 基于 距离 的 度量 标准 来 确定 这 些 向 量 之 间 的 相似 性 , 颜色 差异 将 主导 最 
终 的 结果 。 比 如 ， 一 个 相对 较 小 的 10 nm 的 色差 会 相当 于 10 信 大 的 形状 差异 ， 而 在 不 同 维 度 上 加 
权 可 以 解决 这 个 问题 。 

权重 的 重要 性 将 放 在 8.2 节 讨论 , 那 时 你 会 从 文本 文档 中 生成 向 量 。 在 一 个 文档 中 ,并非 所 
有 单词 都 对 文档 有 相同 的 作用 。 权 重 技术 可 以 帮助 你 强化 更 重要 的 词 ， 而 弱化 那些 相对 并 不 重 
要 的 词 。 


8.1.2 ”准备 Mahout 所 用 的 向 量 


有 了 将 苹果 编码 为 向 量 的 方法 之 后 , 我 们 再 看 看 如 何 准备 Mahout 算 法 所 用 的 向 量 。 首先, K 
例 化 一 个 Vvector 的 实现 , 并 把 每 个 对 象 的 值 填充 进去 ; 再 将 所 有 Vector 写 人 一 个 SequenceFile 
格式 的 文件 , 使 其 可 被 Mahout 算 法 读 取 。sequenceFile 是 Hadoop 库 中 的 一 种 文件 格式 ， 它 由 一 
个 键 - 值 对 序列 组 成 。 其 中 , BE (key) 须 实现 为 Hadoop 中 的 WritableCcomparable, fË (value ) 
须 实现 为 writable。 在 Hadoop 中 ， 它 们 等 效 于 Java 中 的 comparable 和 Serializable 接 口 。 

例如 ， 我 们 可 以 使 用 向 量 的 名 字 或 描述 作为 键 ， 而 向 量 本 身 作为 值 。Mahout 的 Vector 类 没 
有 实现 writable 接 口 ， 以 避免 它们 和 Hadoop 直 接 耦 合 ， 但 可 以 用 vectorwritable 类 来 封装 
一 个 Vector 并 使 之 为 writable。 即 Mahout 中 的 向 量 可 以 使 用 VectorWwritable 类 写 入 
SequenceFile， 如 下 所 示 。 


代码 清单 8-1 为 各 种 苹果 生成 向 量 


public static void main(String args[]) throws Exception { 
List<NamedVector> apples = new ArrayList<NamedVector>(); 


NamedVector apple; 
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apple = new NamedVector( 
new DenseVector(new double[] {0.11, 510, 1}), x 将 名 字 与 向 量 关 联 
"Small round green apple"); 
apples.add(apple); 
apple = new NamedVector ( 
new DenseVector(new double[] {0.23, 650, 3}), 
"Large oval red apple"); 
apples.add(apple) ; 
apple = new NamedVector ( 
new DenseVector(new double[] {0.09, 630, 1}), 
"Small elongated red apple"); 
apples.add(apple) ; 
apple = new NamedVector ( 
new DenseVector(new double[] {0.25, 590, 3}), 
"Large round yellow apple"); 
apples .add (apple); 
apple = new NamedVector ( 
new DenseVector(new double[] {0.18, 520, 2}), 
"Medium oval green apple"); 


Configuration conf = new Configuration() ; 
FileSystem fs = FileSystem.get (conf); 
Path path = new Path("appledata/apples") ; 
SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf, 
path, Text.class, VectorWritable.class) ; 
VectorWritable vec = new VectorWritable(); 
for (NamedVector vector : apples) { 
vec.set (vector) ; ,| 序列 化 向 量 数据 
writer.append (new Text (vector.getName()), vec); 


} 


writer.close(); 


SequenceFile.Reader reader = new SequenceFile.Reader(fs, 
new Path("appledata/apples"), conf); 


Text key = new Text(); 


VectorWritable value = new VectorWritable(); a 
1 
while (reader.next(key, value)) { 反 序列 化 向 量 数 据 


System.out.printlin(key.toString() + " " 
+ value.get().asFormatString()); 
} 
reader.close()j; 


} 

选择 一 个 对 象 的 特征 并 把 它们 映射 到 数字 的 过 程 称 为 特征 选择 (feature selection )。 将 这 些 特 
征 编码 为 向 量 的 过 程 称 为 向 量化 (vectorization )。 

基于 对 特征 值 的 合理 近似 , 任何 类 型 的 对 象 都 可 以 被 转换 为 向 量 形式 ， 就 像 我 们 处 理 苹 果 的 
方法 一 样 。 现 在 让 我 们 向 量化 一 个 特别 有 趣 的 对 象 类 型 : 文本 文档 。 


8.2 将 文本 文档 表示 为 向 量 
数字 形式 的 文本 内 容 呈 爆炸 式 增长 。 仅 谷歌 搜索 引擎 就 索引 了 超过 200 亿 个 Web 文 档 。 这 还 
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只 是 可 以 被 公开 抓 取 的 信息 的 一 部 分 。 文 本 数据 (公共 的 和 私人 的 ) 的 大 小 可 能 超越 1 个 PB: 就 
是 1 后 面 跟 15 个 0。 这 对 聚 类 和 分 类 等 机 器 学 习 算法 来 说 是 一 个 巨大 的 机 会 ， 即 在 非 结 构 化 的 世界 
中 找 出 一 些 结构 和 含义 ， 而 要 做 到 这 一 点 ， 首 先 需 要 学 习 文 本 向 量化 这 门 艺术 。 

VSM ( Vector Space Model， 向 量 空间 模型 ) 是 向 量化 文本 文档 的 常见 方法 。 首 先 ， 考 虑 由 
一 系列 被 向 量化 的 文档 中 全 部 单词 组 成 的 集合 。 这 个 集合 中 的 单词 至 少 在 任意 一 个 文件 中 出 现 过 
一 次 。 假 定 每 个 单词 被 分 配 一 个 编号 ， 这 个 编号 就 是 它 在 文档 向 量 中 所 拥有 的 维度 。 

例如 , 如 果 单 词 horse 被 分 配 到 向 量 的 第 39 905 个 索引 位 置 , 单词 horse 就 对 应 文档 向 量 的 第 39 
905 个 维度 。 于 是 ， 文 档 的 向 量 形式 仅仅 包含 每 个 单词 在 文档 中 出 现 的 次 数 ， 并 且 这 个 数值 会 被 
依次 存储 在 各 个 单词 所 在 的 维度 上 。 这 些 文档 向 量 的 维度 会 非常 庞大 。 维度 的 最 大 可 能 数目 就 是 
向 量 的 基数 (cardinality )。 因 为 可 能 出 现 的 单词 或 词 条 (token) 的 个 数 无 比 巨 大 , 文本 向 量 通常 
被 认为 具有 无 限 的 维度 。 

对 于 一 个 单词 而 言 ， 癌 量 维度 上 的 值 通常 是 文档 中 单词 出 现 的 次 数 。 这 称 为 TF (Term 
Frequency， 词 频 ) 权重 。 请 注意 ， 这 些 值 也 被 称 为 这 个 字段 上 的 权重 ( weight )。 你 可 以 看 到 有 
些 参 考 文献 使 用 了 加 权 (weighting ) 这 一 说 法 ， 而 不 是 值 。 单 篇 文档 中 出 现 的 独立 单词 数目 通常 
比 在 整个 文档 集合 中 的 独立 单词 数目 要 少 。 其 结果 就 是 ， 这 些 高 维度 的 文档 向 量 相 当 稀 玖 。 

在 聚 类 中 ， 我 们 经 常 基 于 距离 测度 来 寻找 两 个 文档 之 间 的 相似 性 。 在 典型 的 英文 文档 中 ， 
最 频繁 的 词 是 a、an、the、who、what、are、is、was 等 。 这 类 词 称 为 停 用 词 ( stopword). 无 论 
你 使 用 任何 距离 测度 计算 两 个 文档 向 量 之 间 的 距离 ,你 都 会 看 到 距离 值 会 被 这 些 频繁 词 的 权重 
所 左右 。 

这 与 之 前 的 苹果 与 颜色 问题 是 一 样 的 。 这 种 效果 不 是 我 们 想 要 的 ,因为 两 个 文档 相似 的 主要 
原因 是 均 出 现 了 a、an 和 the 这 样 的 词 。 赁 直觉 ， 我 们 认为 两 份 相似 的 文件 应 该 谈论 相似 的 主题 ， 
而 标记 一 个 主题 的 词 通常 是 不 常见 的 词语 ， 像 enzyme 、legislation 、Jordan 等 。 这 使 得 简单 基于 词 
频 的 权重 并 不 适用 于 聚 类 ， 也 不 适用 于 其 他 需要 计算 文档 相似 度 的 应 用 。 

幸运 的 是 ,我 们 可 以 使 用 非常 简单 但 很 有 效 的 技巧 来 修复 这 些 缺 陷 , 从 而 改变 加 权 方 法 , 我 
们 将 在 下 面 对 此 进行 讨论 。 


8.2.1 使 用 TF-IDF 改 进 加 权 


TF-IDF ( Term Frequency-Inverse Document Frequency， 词 频 - 道 文档 频率 ) 加 权 被 广泛 用 于 
改进 简单 的 词 频 加 权 。 改 进 之 处 在 于 增加 了 逆 文 档 频率 〈IDF ) 部 分 ， 而 不 是 简单 地 使 用 词 频 作 
为 向 量 中 的 值 ， 这 个 值 会 被 乘 以 单词 的 文档 频率 的 倒数 。 就 是 说 ， 如 果 一 个 单词 在 所 有 文档 中 被 
使 用 的 越 频繁 ， 那 它 对 向 量 中 的 值 的 作用 就 会 被 抵消 得 越 多 。 

为 了 解释 这 一 点 ， 我 们 假设 一 个 文档 中 单词 w, wo, w; 的 频率 为 ,fp,…,f。 单 词 wi 的 词 频 
(TF; ) 为 频率 fi。 

为 了 计算 逆 文 档 频率 ， 先 计算 每 个 单词 的 文档 频率 【DEF )。 文 档 频率 是 有 这 个 单词 出 现 的 文 
档 个 数 。 单词 在 文档 中 出 现 的 次 数 并 不 计 入 文档 频率 。 那么 , 一 个 单词 w 的 道 文档 频率 或 IDF 为 : 
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IDF = —— 
DE 
如 果 一 个 单词 在 文档 集合 中 频繁 出 现 ， 则 其 DF 值 大 而 IDF 值 小 ; 这 个 IDF 值 会 很 小 而 使 乘积 
后 所 得 的 权重 值 过 小 。 在 这 种 情况 下， 最 好 乘 以 一 个 常数 来 归 一 化 IDF 值 。 通 常 它 被 乘 以 文档 个 


数 (N)， 所 以 IDF 的 公式 为 : 


m- 
DF, 
因此 ， 在 文档 向 量 中 单词 w 的 权重 到 为 : 
W, = TF, -IDF = TR 
DF. 


上 述 公 式 中 的 IDF 值 仍 不 理想 ， 因 为 它 掩盖 了 在 最 终 的 单词 权重 中 TF 的 影响 。 为 了 解决 这 个 
问题 ,通常 的 做 法 是 使 用 IDF 值 的 对 数 : 
N 


IDF, = log — 
DF, 
因此 ， 对 于 单词 w，TF-IDF 权 重 静 成 为 : 
W, =TF, MELA 
DF 


也 就 是 说 ， 文 档 向 量 会 把 这 个 值 放 在 单词 所 对 应 的 维度 上 。 这 就 是 经 典 的 TF-IDF 权 重 。 停 
用 词 的 权重 小 , 而 罕见 的 词 的 权重 大 。 对 重要 的 单词 或 主题 词 来 说 , 通常 有 一 个 很 大 的 TF 值 和 比 
较 大 的 IDF 值 ， 所 以 它们 的 乘积 将 成 为 更 大 的 值 ， 从 而 让 这 些 词 在 所 生成 的 向 量 中 更 加 重要 。 

向 量 空间 模型 (VSM ) 有 一 个 基本 假设 ， 即 单词 作为 维度 存在 ， 因 此 是 相互 正 交 的 。 换 句 话 
说 ，VSM 假 定单 词 的 出 现 是 相互 独立 的 ,等同 于 点 的 x 坐 标 完全 独立 于 点 的 ?坐标 。 赁 直觉 就 知道 
这 种 假设 在 许多 情况 下 都 是 错误 的 。 例 如 ，Cola 这 个 词 与 Coca 同 时 出 现 的 概率 会 更 高 ， 所 以 这 些 
单词 并 非 完 全 独立 的 。 因 此 ， 有 一 些 其 他 的 模型 考虑 了 单词 的 依赖 关系 。 

其 中 一 个 广为人知 的 技术 是 LSI (Latent Semantic Indexing， 洪 在 语义 索引 )， 它 检测 可 归并 
的 维度 并 将 它们 合并 成 一 个 。 由 于 维度 减少 了 ， 聚 类 计算 速度 会 更 快 。 聚 类 质量 也 随 之 改善 ， 因 
为 现在 我 们 会 有 一 个 非常 好 的 属性 能 够 出 色 地 对 文档 对 象 进 行 分 组 。 

在 本 书写 作 的 时 候 ，Mahout 尚 未 实现 LSI， 但 TF-IDF 已 被 证 明 即 使 在 独立 性 假设 条 件 下 也 可 
以 出 色 地 工作 。Mahout 目 前 为 单词 依赖 问题 提供 了 一 个 解决 方案 ， 即 通过 使 用 一 种 称 为 搭配 
(collocation ) 或 n-gram 生 成 的 方法 ， 下 面 我 们 来 看 一 下 这 个 方法 。 


8.2.2 ”通过 n-gram 搭 配 词 考察 单词 的 依赖 性 


一 个 句子 中 的 一 组 单词 称 为 一 个 n-gram。 一 个 单词 可 称 为 unigram， 而 像 Coca Cola 这 样 的 两 
个 单词 可 视 为 一 个 单位 ， 并 称 为 bigram。 三 个 及 以 上 单词 的 组 合 可 称 为 trigram、4-gram、5-gram 
等 , 经 典 的 TF-IDF 权 重 假定 单词 的 出 现 是 独立 于 其 他 单词 的 , 用 这 种 方法 创建 的 向 量 通常 缺乏 识 
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别 文 档 关 键 特征 的 能 力 ， 因 为 这 些 特征 可 能 是 有 依赖 关系 的 。 

为 了 克服 这 个 问题 ，Mahout 实 现 的 技术 能 够 识别 出 那些 共 现 概率 异常 高 的 单词 的 组 合 ， 如 
Martin Luther King Jr 或 Coca Cola。 在 创建 向 量 时 ， 你 可 以 不 再 把 维度 映射 到 单个 词 (unigram ), 
而 是 同样 简单 地 将 其 映射 到 bigram 一 一 或 同时 使 用 两 种 映射 方法 。 于 是 ，TF-IDF 就 可 以 像 之 前 一 
样 地 发 挥 作用 。 

从 一 个 由 多 个 单词 组 成 的 句子 中 ， 你 可 以 通过 选择 z 个 连续 的 单词 来 生成 所 有 的 n-gram。 这 
个 练习 将 生成 许多 n-gram， 其 中 大 部 分 并 不 是 有 意义 的 。 例 如 ， 从 句子 “It was the best of times, it 
was the worst of times,” 我 们 可 以 生成 以 下 的 bigram: 


It was 


was the 
the best 
best of 
of times 
times it 
it was 
was the 
the worst 
worst of 
of times 


其 中 有 些 组 合 很 好 , 可 用 于 生成 文档 向 量 (“the best,” “the worst”), 但 有 些 却 不 够 好 (“was 
the”)。 如 果 你 将 一 个 文档 中 的 unigram 和 bigram 合 并 ， 并 使 用 TF-IDF 来 生成 权重 ， 结 果 就 会 让 许 
多 毫 无 意义 的 bigram 占 有 较 大 的 权重 ， 因 为 它们 有 较 大 的 IDF。 这 是 极 不 可 取 的 。 

为 了 解决 这 个 问题 ，Mahout 利 用 一 种 称 为 对 数 似 然 〈1log-likelihood ) 的 测试 方法 来 考察 
n-gram, 从 而 确定 两 个 字 在 一 起 出 现 到 底 是 偶然 发 生 的 , 还 是 因为 它们 形成 了 一 个 有 意义 的 单元 。 
我 们 选择 最 有 意义 的 , 而 排除 最 无 意义 的 。 在 剩余 的 n-gram 上 就 可 以 应 用 TF-IDF 加 权 策 略 并 生成 
向 量 。 如 此 ， 在 TF-IDF 加 权 中 就 可 以 更 合理 地 考量 像 Coca Cola 这 样 有 意义 的 bigram。 

在 Mahout 中 ,使 用 DictionaryVectorizer 类 将 文本 文档 通过 TF-IDF 加 权 和 n-gram 搭 
配 词 转换 为 向 量 。 在 下 一 节 ， 你 将 看 到 如 何 从 一 个 包含 文件 的 目录 开始 ， 来 创建 TF-IDF 加 权 
向 量 。 
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我 们 现在 考察 两 个 从 文本 文档 生成 向 量 的 重要 工具 。 第 一 个 是 sequenceFilesFrom 
Directory 类 , 它 将 目录 结构 下 的 文本 文档 转换 成 以 seauenceFile 格 式 表示 的 中 间 文 件 。 第 二 
个 是 sparseVectorsFromSequenceFiles 类 ， 它 使 用 基于 n-gram 的 TF 或 TF-IDF 加权 将 
SequenceFile 格 式 的 文本 文档 转换 为 向 量 。sequenceFile 格 式 的 中 间 文 件 以 文档 外 为 键 ; 以 
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文档 的 文 术 内 容 为 值 。 我 们 从 一 个 文本 文档 目录 开始 ， 其 中 每 个 文件 都 包含 一 个 完整 的 文档 , 之 
后 ， 就 可 以 使 用 这 些 类 把 文档 转换 到 向 量 。 

在 这 个 例子 中 , 我 们 使 用 Reuters-21578 新 闻 数 据 集 ?。 它 在 机 器 学 习 研 究 领域 中 被 广泛 使 用 。 
这 些 数据 的 收集 和 标记 最 初 是 由 卡 内 基 集 团 ( Carnegie Group ) 和 路 透 社 (Reuters) 在 开发 
CONSTRUE 文 本 分 类 系统 的 过 程 中 完成 的 。Reuters-21578 数 据 集 分 为 22 个 文件 , 除 最 后 一 个 文件 
( reut2-021.sgm ) 只 包含 578 篇 文档 之 外 ， 其 余 每 个 文件 均 包 含 1000 篇 文档 。 

这 些 文件 为 SGML 格 式 ， 类 似 于 XML。 我 们 可 以 为 SGML 文 件 创建 一 个 解析 器 ， 把 文档 ID 和 
文档 文本 写 人 sequenceFiles 中 ， 并 使 用 sparseVectorsFromSequenceFiles 将 它们 转换 为 
向 量 。 但 更 简便 的 方法 是 重用 Lucene benchmark 的 JAR 文 件 中 给 定 的 Reuters 解 析 器 。 因 为 它 就 在 
Mahout 的 包 中 ， 你 只 需 到 Mahout 源 代码 树 的 examples/directory Fiz 行 org.apache.lucene. 
benchmark .utils.ExtractReutezrs 类 即 可 。 

在 此 之 前 ,从 网 站 上 下 载 Reuters 数 据 集 , 并 将 其 解压 到 examples/ 下 的 reuters/ 目 录 中 。 如 下 所 
示 ， 在 examples 目 录 中 运行 Reuters 的 解压 代码 : 

mvn -e -q exec:java 


-Dexec.mainClass="org.apache.lucene.benchmark.utils.ExtractReuters" 
-Dexec.args="reuters/ reuters-extracted/" 


在 解压 后 的 目录 中 ， 运 行 SequenceFileFromDirectory 类 。 你 可 以 在 Mahout 的 根 目录 下 
使 用 启动 器 (1launcher ) 脚本 完成 相同 的 工作 : 


bin/mahout seqdirectory -c UTF-8 
-i examples/reuters-extracted/ -o reuters-seqgfiles 


提示 “你 也 许 需 要 设置 JAVRA_HOME 环 境 变量 以 运行 这 个 启动 器 脚本 


这 会 把 Reuters 的 文章 转换 为 SequenceFile 格 式 。 现 在 只 差 一 步 就 可 以 将 数据 转换 为 向 量 。 
为 了 实现 这 一 点 ， 使 用 Mahout 的 启动 器 脚本 运行 SparseVectorsFromSequenceFiles 类 。 


bin/mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow 


提示 在 Mahout 中 ,使 用 -ow 标志 表示 是 否 要 覆盖 输出 文件 夹 。 因 为 Mahout 处 理 的 数据 集 庞 大 ， 
每 个 算法 都 需要 花 不 少时 间 来 生成 结果 。 这 个 标志 会 防止 意外 删除 需要 花费 数 小 时 才能 
生成 的 输出 。 


Mahout 启 动 器 脚本 中 的 seq2sparse 命 令 从 sequenceFile 中 读 取 Reuters 的 数据 ， 并 将 
基于 词典 的 向 量化 程序 所 生成 的 向 量 写 入 输出 目录 中 ， 该 命令 所 用 的 默认 选项 在 表 8-2 中 简要 
列 出 。 


O Reuters-21578 测 试 数据 集 可 在 http://www.daviddlewis.com/resources/testcollections/reuters21578/ 中 找到 。 直接 的 下 载 
链接 为 http://www.daviddlewis.com/resources/testcollections/reuters21578/reuters21578.tar.gz。 


选 项 
覆盖 (bool) 
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#8-2 ”Mahout 基 于 词典 的 向 量化 程序 所 用 的 重要 标志 及 其 默认 值 


Ho $ 


a iA 值 
N/A 


如 果 该 标志 被 设置 , 则 输出 目录 被 覆盖 。 否则 ， 当 输出 目 


Lucene4} HT 4 
% (String) 


RK) (int) 


权重 
(String ) 
最 小 支持 度 
(int ) 

最 小 文档 频率 
(int) 

最 大 文档 频率 
(int) 


n-gram 大 小 
(int) 

最 小 对 数 似 然 
Ik (LLR, 
float ) 


归 一 化 
(float) 
reducer 个 数 
(int) 


生成 顺序 访问 
的 稀 朴 向 量 
(bool ) 


-chunk 


-X 


ng 


—n 


-nr 


-seq 


录 不 存在 时 创建 该 目录 , 而 当 输出 目录 存在 时 , 该 作业 失 
败 并 报错 。 默 认为 不 设置 


所 用 分 析 器 的 类 名 


以 MB 为 单位 的 块 大 小 。 对 于 大 的 文档 集合 ( GB 或 TB 级 )， 
你 在 向 量化 时 无 法 将 全 部 的 词典 装 人 和 人 内存, 只 有 将 词典 分 
为 特定 大 小 的 块 , 用 多 个 步骤 来 执行 向 量化 过 程 。 建 议 你 
将 这 个 块 大 小 保持 在 Hadoop 子 节点 上 Java 堆 大 小 的 80%， 
以 避免 向 量化 程序 受到 堆 大 小 限制 的 影响 


所 用 的 加 权 机 制 : tf 为 基于 词 频 的 加 权 , 而 tfidf 为 基于 
TF-IDF 的 加 权 


在 整个 集合 中 可 放 入 词典 文件 的 词 的 最 小 频率 , 低 于 该 频 
率 的 词 被 忽略 

可 放 入 词典 文件 的 词 所 在 文档 的 最 小 个 数 , 低 于 该 频率 的 
词 被 忽略 

可 放 入 词典 文件 的 词 所 在 文档 的 最 大 个 数 。 这 种 机 制 用 于 
去 掉 高 频 词 ( 停 用 词 ) 。 所 在 文档 比例 大 于 该 值 的 词 都 会 
被 忽略 


文档 集合 中 选 出 的 n-gram 的 最 大 长 度 


这 个 标志 仅 当 n-gram 大 于 1 时 才 生 效 。 明 显 有 意义 的 
n-gram 有 很 大 的 值 ， 如 1000; 没什么 意义 的 则 值 较 低 。 虽 
然 并 无 特定 方法 来 选取 该 值 ， 根 据 经 验 ，LLR 小 于 1.0 的 
n-gram 通常 表示 无 意义 

归 一 化 值 用 在 Li 空间 。 归 一 化 的 详细 解释 见 8.4 节 。 默 认 
的 策略 是 对 权重 不 做 归 一 化 

并 行 执行 的 reduce 任 务 的 个 数 。 当 基于 目录 的 向 量化 程序 
运行 在 Hadoop 集 群 上 时 ， 这 个 标志 会 生效 。 将 它 设置 为 
集群 的 最 大 节点 数 会 获得 最 高 的 性 能 。 如 果 把 这 个 值 设置 
得 比 集群 节点 个 数 更 大 , 会 导致 性 能 略为 下 降 。 通过 阅读 
Hadoop 文 档 ， 可 以 获得 设置 最 优 reducer 个 数 的 详细 信息 
如 果 这 个 标志 被 设置 , 输出 向 量 就 被 创建 为 Sequential 
AccessSparseVector。 而 默认 情况 下 ， 基 于 目录 的 向 
量化 程序 创建 的 是 RandomAccessSparseVector。 前 者 
在 某 些 算法 ( 如 k-means 和 SVD ) 上 可 获得 更 高 的 性 能 ， 
原因 在 于 向 量 操作 的 连续 访问 特征 。 默认 情况 下 , 这 个 标 
志 不 被 设置 


org.apache.lucene.an 
alysis.standard. 
StandardAnalyzer 


100 


tfidf 


99 


N/A 
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看 一 下 使 用 这 些 命 令 行 命令 所 生成 的 目录 : 
$ ls reuters-vectors/ 

df-count/ 

dictionary. file-0 

frequency.file-0O 

tfidf-vectors/ 

tf-vectors/ 

tokenized-documents/ 


wordcount/ 

在 输出 目录 中 , 你 会 看 到 一 个 词典 文件 和 几 个 目录 。 这 个 词典 文件 包含 一 个 从 词 到 它 的 整数 
型 ID 的 映射 。 当 你 需要 读 取 不 同 算法 的 输出 结果 时 ,这 个 文件 就 派 上 用 场 了 , 所 以 你 需要 保留 这 
个 词典 文件 。 其 他 的 文件 夹 是 在 向 量化 过 程 中 所 生成 的 中 间 文 件 夹 ， 它 们 是 由 多 个 步骤 (多 个 
MapReduce 作 业 ) 产生 的 。 

第 一 步 是 文本 文档 符号 化 一 一 它们 被 Lucene standardanalyzer 拆 分 为 单个 的 单词 ， 并 存 
储 在 tokenized-documents/ 文 件 夹 中 。 第 二 步 是 字数 统计 即 n-gram 生 成 (在 本 案例 中 仅 计 算 
unigrams ) 迭代 处 理 所 有 被 符号 化 的 文档 ， 并 生成 重要 单词 的 集合 。 第 三 步 使 用 词 频 权重 将 
符号 化 的 文档 转换 为 向 量 ， 进 而 生成 TF 向 量 。 上 默认 情况 下 ， 向 量化 程序 使 用 TF-IDF， 因 此 后 面 
还 有 两 个 步骤 : DF ( Document-Frequency， 文 档 频 率 ) 统计 任务 ， 以 及 TF-IDF 向 量 生 成 。 

TF-IDF 加 权 的 向 量化 文档 可 以 在 tfidf-vectors/ 文 件 夹 下 找到 。 对 于 大 多 数 应 用 ， 你 只 需要 这 
个 文件 夹 和 词典 文件 即 可 。 

让 我 们 重新 审视 Reuters seauenceFiles 并 使 用 非 默认 的 值 来 生成 一 个 向 量 数据 集 。 所 用 的 
非 默认 标志 值 如 下 。 

口 -a 使 用 org.apache.lLucene.analysis.WhitespaceaAnalyzer 基 于 单词 之 间 的 空白 

字符 来 标记 单词 。 
O -chunk 使 用 200MB 的 块 大 小 。 这 个 值 不 会 对 Reuters 数 据 产 生 任 何 影 响 ， 因 为 词典 大 小 
通常 在 IMB 范 围 内 。 

O-wt 使 用 tfiaf 加 权 方 法 。 

口 -s 使 用 5 作为 最 小 支持 度 。 

Oma 使 用 3 作为 最 小 文档 频率 值 。 

口 -x 使 用 90% 作 为 最 大 文档 频率 百分比 ， 以 尽量 去 除 高 频 词 。 

O -ng ”使 用 2 作为 n-gram 大 小 ， 以 生成 unigram 和 bigram。 

口 -ml 使 用 50 作 为 对 数 似 然 比 (LLR ) 的 最 小 值 ， 从 而 只 保留 有 明显 意义 的 bigram。 

O -seq 设置 sequentialAccessSparseVectors 标 志 。 

暂时 不 设置 归 一 化 标志 ( -n )。 下 一 节 我 们 再 回来 讨论 这 个 标志 。 

在 Mahout 的 启动 器 脚本 中 使 用 上 述 选项 运行 向 量化 程序 。 


bin/mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors-bigram -ow 
-a org.apache.lucene.analysis.WhitespaceAnalyzer 
-chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq 
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这 个 向 量化 作业 时 生成 的 词典 文件 从 654 KB 增长 到 1.2 MB 。 虽 然 我 们 依据 频率 消除 了 更 多 
的 unigram, 但 是 即便 使 用 LLR 阅 值 过 滤 , 我 们 也 会 让 bigram 的 个 数 几 乎 翻 一 倍 。 包 含 trigram 之 后 ， 
词典 大 小 会 增长 到 2 MB。 至 少 在 从 bigram 到 trigram 以 及 之 后 的 过 程 中 , 它 的 大 小 还 只 是 按 线性 增 
长 的 ， 这 归功 于 基于 LLR 的 过 滤 过 程 。 和 否则， 词典 大 小 会 呈 指 数 增长 。 

至 此 , 你 已 经 可 以 尝试 Mahout 所 提供 的 任何 聚 类 算法 了 。 在 文本 向 量化 中 只 有 一 个 需要 理解 
的 重要 概念 了 : 归 一 化 。 我 们 下 面 来 讨论 它 。 
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归 一 化 (normalization ) 在 这 里 是 一 个 清理 边界 情况 的 过 程 _” 带 有 异常 特征 的 数据 会 导致 
结果 出 现 不 正常 的 偏差 。 例 如 ,在 使 用 某 些 距 离 测 度 计算 文 档 之 间 的 相似 性 时 ， 总 会 有 几 个 文档 
似乎 与 集合 中 所 有 其 他 的 文档 都 相似 , 但 仔细 观察 ,你 会 发 现 这 是 因为 这 个 文档 非常 大 , 并 且 它 
的 向 量 有 许多 非 零 的 维度 ， 导 致 它 和 许多 较 小 的 文档 都 相似 。 因 此 ,在 计算 相似 性 时 ,我 们 需要 
设法 抵消 向 量 大 小 不 同 所 造成 的 影响 。 降低 大 向 量 的 重要 性 , 并 提高 较 小 向 量 的 重要 性 的 过 程 就 
称 为 归 一 化 。 

在 Mahout 中 ， 归 一 化 使 用 了 在 统计 学 中 的 p 范 数 ( p-norm )。 例 如， 一 个 三 维 向 量 [x,y,z] 中 的 
P 范 数 为 $ 

x y Z 


(la? Hot +e e (lel H Y (lal a eY 


这 里 ， 表 达 式 (xF + WP +EP) 可 视 为 一 个 向 量 的 范 数 (norm )， 我 们 就 是 让 每 个 向 量 的 值 
都 除 以 这 个 数 。 参数 p 可 以 是 大 于 0 的 任意 值 。 向 量 的 一 范 数 ( 1-norm ) 或 者 曼哈顿 范 数 ( Manhattan 
norm ) 是 这 个 向 量 除 以 所 有 维度 的 权重 之 和 。 


ES EE E 
lx] +|y]+|z] 四 + 四 + 人 +yz 
二 范 数 (2-norm ) 或 者 欧 氏 范 数 (Euclidean norm ) 是 这 个 向 量 除 以 它 的 幅 值 一 一 我 们 可 以 
将 这 个 幅 值 习惯 地 理解 为 向 量 的 长 度 。 
ES es a 
无 穷 范 数 (infinite norm ) 简单 地 将 向 量 除 以 最 大 幅 值 维度 的 权重 : 


EN Lee ear ert Saetee 
max (|x|,y],lz]) max (|z|,|y],|2]) max (|x|,|y1,]21) 


你 选择 的 范 数 寡 值 (2 ) 依赖 于 对 该 向 量 采 取 的 是 哪 种 操作 。 如 果 使 用 曼哈顿 距离 测度 ， 一 
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范 数 通 常会 取得 较 好 的 结果 。 类 似 地 ， 如 果 计 算 相 似 度 使 用 的 是 欧 氏 距离 测度 的 余弦 值 ， 向 量 二 
范 数 会 得 到 较 好 的 结果 。 总 之 , 要 得 到 最 优 结 果 ， 归 一 化 应 该 关联 到 在 相似 性 度量 中 所 用 的 距离 
定义 。 

注意 在 p 范 数 中 的 p 可 以 是 任意 的 有 理 数 ， 因 此 3/4、5/3 和 7/5 都 是 合法 的 归 一 化 寡 值 。 在 词典 
向 量化 程序 中 , 使 用 -norm 标 志 设 置 这 个 第 值 。INF 的 值 代表 一 个 无 穷 范 数 。 生 成 这 个 用 2 来 归 一 
化 的 bigram 向 量 与 运行 Mahout 启 动 器 一 样 简单 ， 使 用 seq2sparse 命 令 并 把 标识 -n 设 为 2: 


bin/mahout seq2sparse -i reuters-seqfiles/ -o reuters-normalized-bigram -ow 
-a org.apache.lucene.analysis.WhitespaceAnalyzer 
-chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq -n 2 


归 一 化 对 到 类 的 质量 有 所 提高 。 进 一 步 改善 聚 类 质量 需要 针对 特定 问题 来 设计 距离 测度 和 合 
适 的 算法 。 下 一 章 ， 我 们 将 呈现 Mahout 中 的 各 种 聚 类 算法 。 


8.5 小结 


在 本 章 中 ,你 学 习 了 聚 类 这 类 机 器 学 习 算法 所 使 用 的 最 重要 的 数据 表示 机 制 : Vector 格式 。 
在 Mahout 中 有 两 种 类 型 的 vector 实 现 ， 稀 玻 (sparse) 和 密集 (dense) 向 量 。 密 集 向 量 由 
DenseVector 类 实现 ; RandomAccessSparseVector 是 为 满足 应 用 快速 随机 读 取 而 设计 的 一 个 
稀 玖 实现 , 而 sequentialAccessSparseVector 则 是 为 满足 应 用 快速 顺序 读 取 而 设计 的 。 你 可 
以 根据 你 算法 的 访问 模式 来 酌情 选择 。 

你 学 习 了 如 何 将 一 个 对 象 的 重要 特征 映射 为 数值 , 进而 生成 代表 不 同 对 象 类 型 的 向 量 (在 我 
们 的 示例 中 是 苹果 )。 然 后 ， 就 可 以 通过 sequenceFile 读 写 这些 向 量 ， 它 是 Mahout 中 所 有 聚 类 
算法 都 采用 的 格式 。 

文本 文档 在 聚 类 中 被 频繁 使 用 。 使 用 向 量 空间 模型 (VSM ) 可 以 将 文本 文档 表达 为 Vector。 
TF-IDF 加 权 策 略 被 证 明 是 一 种 简单 有 效 的 方法 ， 能 够 消除 聚 类 过 程 中 停 用 词 所 造成 的 负面 影响 。 
在 经 典 TF-IDF 加 权 策 略 中 假设 单词 彼此 独立 , 从 而 掩盖 了 文本 中 的 一 些 重要 特征 , 但 是 在 Mahout 
中 基于 搭配 的 n-gram 生成 方法 , 通过 使 用 对 数 似 然 比 测试 找 出 单词 的 明显 分 组 ， 从 而 一 定 程度 上 
解决 了 这 个 问题 。Mahout 基 于 词典 的 向 量化 程序 可 以 轻松 地 将 Retuers 的 新 闻 集 合 转化 为 向 量 。 

最 后 ， 文 本 文档 的 长 度 对 距离 测度 的 质量 有 负面 的 影响 。 词 典 向 量化 程序 所 实现 的 p 归 一 化 
方法 通过 除 以 向 量 的 p 范 数 来 重新 调整 向 量 的 权重 ， 从 而 解决 了 这 个 问题 。 

使 用 Reuters 的 向 量 数据 集 ， 我 们 可 以 使 用 不 同 的 技术 来 做 聚 类 ， 它 们 各 有 利弊 。 在 下 一 章 ， 
我 们 将 探讨 这 些 技术 。 


Mahout 中 的 聚 类 算法 . 


本 章 内 容 

口 k-means% 

口 使 用 canopy 聚 类 生成 簇 的 中 心 

口 模糊 k-means 聚 类 与 狄 利克 雷 聚 类 

O 聚 类 的 一 个 变种 ， 使 用 潜在 狄 利 克 雷 分 配对 话题 建 模 


现在 ， 你 已 经 知道 输入 数据 如 何 表 示 为 vector ， 以 及 如 何 创 建 seauenceFile 用 作 聚 类 算 
法 的 输入 ， 你 可 以 开始 尝试 Mahout 提 供 的 各 种 聚 类 算法 了 。Mahout 包 含 了 很 多 聚 类 算法 ， 对 于 
一 个 给 定 的 数据 集 ， 某 些 算法 适用 ， 而 另 一 些 则 不 适用 。k-means 是 一 种 通用 的 聚 类 算法 ， 它 可 
以 容易 地 应 用 在 大 部 分 场合 。 它 通俗 易 懂 ， 而 且 可 以 很 容易 的 在 多 台 机 器 上 并 行 执行 。 

因此 ， 在 了 解 各 种 聚 类 算法 的 细节 之 前 ， 我 们 最 好 先 通过 k-means 算 法 得 到 一 些 实践 经 验 。 
在 此 基础 上 , 更 容易 理解 其 他 不 太 常 见 的 技术 有 何 缺 陷 与 不 足 , 并 了 解 它 们 如 何在 特定 场合 更 好 
的 完成 聚 类 。 你 将 使 用 k-means 算 法 对 新 闻 文 章 进 行 聚 类 ， 并 通过 其 他 技术 改善 聚 类 质量 。 然 后 ， 
你 将 学 习 如 何 利用 canopy 聚 类 推断 k-means 中 的 k 值 。 有 了 这 些 知识 ， 你 将 实现 一 个 新 闻 聚 合 网 站 
的 聚 类 工作 流 ， 从 而 更 好 的 认识 如 何 用 聚 类 解决 真实 世界 中 的 问题 。 

熟悉 了 k-means 之 后 ， 我 们 也 会 介绍 它 的 一 些 缺 点 ， 以 及 其 他 特殊 类 型 的 聚 类 算法 如 何 填补 
这 些 空白 。 我 们 会 讨论 模糊 k-means 和 狄 利克 雷 (Dirichlet) 聚 类 在 此 类 情况 下 的 应 用 。 最 后 ,我 
们 将 介绍 潜在 LDA (Latent Drichlet Allcation， 狄 利克 雷 分 配 )， 一 个 与 聚 类 非常 相似 的 算法 ， 但 
实现 了 一 些 更 有 趣 的 东西 。 

有 很 多 需要 介绍 的 东西 ， 所 以 不 要 这 里 浪费 时 间 了 。 我 们 现在 就 通过 k-means 算 法 进入 聚 类 
的 世界 。 


9.1 k-means 聚 类 


k-means 与 聚 类 的 关系 ， 正 如 Vicks 与 止咳 糖浆 的 关系 一 样 。 它 是 一 个 简单 的 算法 ， 已 经 有 50 
多 年 的 历史 。Stuart Lloyd 于 1957 年 首先 提出 了 标准 算法 ,并 将 其 用 于 脉冲 编码 调制 ,但 直到 1982 
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年 才 发 表 "。 它 在 众多 科学 领域 中 被 广泛 用 作 聚 类 算法 。 该 算法 要 求 用 户 设 定 聚 类 个 数 k 作 为 输入 
参数 。 前 面 第 7 章 中 ， 我 们 对 二 维 平面 内 的 点 进行 聚 类 时 已 经 使 用 过 该 算法 。 让 我 们 来 进一步 了 
解 算法 的 细节 。 

k-means 算法 有 一 个 硬性 限制 ， 就 是 簇 的 个 数 k。 你 可 能 会 质疑 这 一 限制 是 否 影 响 聚 类 效果 ， 
但 这 种 担心 是 多 余 的 。 在 其 诞生 的 29 年 里 ,该 算法 已 被 证 明 能 够 广泛 用 于 解决 现实 世界 的 问题 。 
即使 你 估计 的 k 值 是 次 优 的 ， 聚 类 质量 也 不 会 受到 太 大 影响 。 

假设 你 要 对 新 闻 报 道 进 行 聚 类 ， 以 得 到 顶层 类 别 ， 如 政治 、 科 学 、 体 育 等 。 对 此 ,我们 倾向 
于 选择 较 小 的 k 值 ， 可 能 是 10 到 20 之 间 。 如 果 需 要 细 粒 度 的 主题 ， 则 需要 更 大 的 k 值 ， 如 50 至 100。 
假设 你 的 数据 库 中 有 1 000 000 篇 新 闻 报 道 , 需要 按 讨论 的 话题 进行 分 组 。 这 类 相关 话题 的 数量 将 远 
远 小 于 整个 语料库 的 大 小 一 一 每 个 簇 可 能 包含 大 约 100 篇 报道 ,这 意味 着 你 需要 使 用 大 小 在 10 000 
左右 的 k 值 来 生成 这 样 一 个 分 布 。 这 个 例子 能 够 反映 出 聚 类 的 可 扩展 性 ， 而 可 扩展 性 正 是 Mahout 
的 强项 。 

为 使 k-means 得 到 较 好 的 聚 类 质量 , 你 需要 首先 估算 k 值 。 一 个 近似 的 方法 是 基于 已 有 数据 和 
需要 的 簇 个 数 估计 k 值 。 在 前 面 的 例子 中 ,我们 有 大 约 一 百 万 篇 新 闻 报 道 ， 如 果 平 均 每 个 话题 有 
500 篇 相关 报道 ， 那 么 你 就 应 该 把 聚 类 的 k 值 设 为 2000 (1 000 000/500 )。 

这 是 一 种 原始 的 估计 簇 个 数 的 方法 。 然 而 ， 即 使 是 这 样 粗 略 的 估计 ，k-means 算 法 也 能 得 到 
令 人 满意 的 聚 类 结果 。 影响 k-means 聚 类 质量 的 决定 性 因素 是 所 使 用 的 距离 测度 的 类 型 。 在 第 7 章 
中 , 我 们 提 到 了 Mahout 中 各 种 各 样 的 距离 测度 。 我 们 将 回顾 这 些 距离 测度 方法 , 并 在 本 章 的 例子 
中 测试 它们 的 效果 。 


9.1.1 关于 k-means 你 需要 了 解 的 


让 我 们 更 进一步 了 解 k-means 算法 。 假 设 我 们 有 nn 个 点 ,需要 肾 到 k 个 簇 中 。k-means 算 法 首先 
从 包含 k 个 中 心 点 的 初始 集合 开始 。 随 后 ， 算 法 进行 多 次 迭代 处 理 并 调整 中 心 位置 ， 直 到 达到 最 
大 迭代 次 数 ， 或 中 心 收敛 于 固定 点 不 再 移动 。 

图 9-1 展 示 的 是 一 轮 k-means 迭 代 。 实 际 算法 是 一 系列 这 样 的 迭代 。 

此 算法 有 两 个 步骤 。 第 一 步 , 找到 距离 各 中 心 最 近 的 数据 点 , 并 将 这 些 数据 点 赋 给 特定 的 簇 。 
第 二 步 ， 使 用 各 簇 中 所 有 点 的 坐标 的 均值 更 新 中 心 位 置 。 

这 种 两 步 算法 是 EM (Expectation Maximization， 期 望 最 大 化 ) 算法 的 一 个 经 典 例 子 。 在 EM 算 
法 中 ， 两 个 步 又 会 重复 执行 直到 收敛 。 第 一 步 ， 称 为 E ( Expectation， 期 望 ) 步骤 ， 寻 找 预 期 会 与 
一 个 篮 有 关联 的 点 。 第 二 步 ， 称 为 M ( Maximization ， 最 大 化 ) 步骤 ,利用 E 步 又 获得 的 信息 改善 对 
簇 中 心 的 估计 。 对 EM 的 详尽 解释 不 在 本 书 的 讨论 范围 之 内 ,但 是 有 大 量 资源 可 供 在 线 获取 ”。 


Q Stuart P. Lloyd, “Least Squares Quantization in pem” , IEEE Transactions on Information Theory, IT-28, 2: 129-137. 
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.131.1338. 

@ Frank Dellaert 从 下 界 最 大 化 的 角度 解释 了 EM 算法 , “The Expectation Maximization Algorithm” , http://www.cc. 
gatech.edu/~dellaertem-paperpdf。 维 基 百 科 上 也 有 关于 此 算法 的 词 条 : http://en.wikipedia.org/wiki/Expectation- 
maximization algorithm。 
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图 9-1 k-means RXZ, VEFE=“MBAPL ARV E RAD (左上 ) ，map 阶 段 (右上 ) 
将 每 个 点 赋 给 离 其 最 近 的 复 。 在 reduce 阶 段 (左下 ) ， 取 相互 关联 的 点 的 均值 ， 
作为 新 的 复 中 心 位 置 ， 得 到 本 轮 迭 代 的 最 终 布 局 〈 右 下 ) 。 在 每 一 轮 迭 代 结 束 
后 ， 最 终 布局 将 被 反馈 给 同样 的 循环 过 程 ， 直 到 聚 类 中 心 的 位 置 不 再 移动 


在 了 解 了 k-means 的 技术 之 后 ， 让 我 们 看 看 在 Mahout 中 非常 重要 的 k-means 类 ， 并 运行 一 个 简 
单 的 聚 类 实例 。 


9.1.2 ”运行 k-means 聚 类 


k-means 聚 类 算法 可 以 通过 KMeansclusteret 或 KMeansDriver 类 运行 。 前 者 以 in-memory 
方式 对 数据 点 进行 聚 类 ， 而 后 者 则 可 以 用 于 启动 一 个 MapReduce 作 业 来 执行 k-means。 这 两 种 方 
法 不 仅 能 像 普通 Java 程 序 一 样 从 磁盘 上 读 写 数据 来 运行 ， 也 可 以 在 一 个 Apache Hadoop 集 群 上 执 
行 ， 在 分 布 式 文件 系统 上 读 写 数据 。 

在 这 个 例子 中 ， 你 将 使 用 一 个 随机 数据 点 生成 器 。 它 产生 Vector 形式 的 数据 点 ， 这 些 点 以 


代码 清单 9-1 中 generatesamples 函 数 可 以 使 用 如 下 输入 参数 ， 比 如 说 是 一 个 以 (1，1) 为 中 
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心 、 标 准 差 为 (2)、 以 及 在 中 心 附 近 呈 正 态 分 布 的 n(400) 个 随机 点 的 集合 。 类 似 的 ， 你 还 要 生成 男 
外 两 个 点 集 ， 中心 分 别 是 (1, 0) 和 (0,2), 相应 的 标准 差分 别 为 0.5 和 0.1。 代码 清单 9-1 使 用 如 下 参数 
运行 KMeansClusterer: 

口 输入 点 为 List<Vector> 格 式 ; 

口 DistanceMeasure 是 EuclideanDistanceMeasure; 

口 收敛 六 值 为 0.01; 

O GRA; 

口 初始 中 心 由 RandomPointsUtil 选 定 ， 与 第 7 章 中 的 Hello World 例 子 相 同 。 


代码 清单 9-1 在 内 存 中 执行 rmeans 聚 类 算法 的 示例 。 


private static void generateSamples (List<Vector> vectors, int num, 
double mx, double my, double sd) { 


for (int i = O; i < num; i++) { 
vectors.add(new DenseVector ( 
new double[] { 


UncommonDistributions.rNorm(mx, sd), 
UncommonDistributions.rNorm(my, sd) 


Ve 


} 
public static void main(String[] args) { 
List<Vector> sampleData = new ArrayList<Vector>(); 


| 生成 3 个 点 集 
generateSamples(sampleData, 400, 1, 1, 3); 
generateSamples(sampleData, 300, 1, 0, 0.5); 
generateSamples(sampleData, 300, 0, 2, 0.1); 

int k = 3; 

List<Vector> randomPoints = RandomPointsUtil.chooseRandomPoints ( 


sampleData, k); 
List<Cluster> clusters = new ArrayList<Cluster>(); 


int clusterId = 0; 
for (Vector v : randomPoints) { 
clusters.add(new Cluster(v, clusterId++, 
new EuclideanDistanceMeasure()))j; 


} 


List<List<Cluster>> finalClusters 
= KMeansClusterer.clusterPoints (sampleData, clusters, 


new EuclideanDistanceMeasure(), 3, 0.01); 
for (Cluster cluster : finalClusters.get ( | 运行 KMeansClusterer 
finalClusters.size() - 1)) { 
System.out.println("Cluster id: " + cluster.getId() 
+" center: ' + | 这 入 中 心 并 打印 
cluster.getCenter().asFormatString()); 
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在 Mahout 的 mahout-examples 模 块 中 有 一 个 Di splaykMeans#, 它 是 二 维 平面 内 算法 可 视 
化 的 一 个 有 力 工 具 。 它 能 显示 簇 在 每 一 轮 迭 代 中 如 何 移 动 。 这 也 是 一 个 展示 KMeansClusterer 
如 何 做 聚 类 的 很 好 例子 。 以 Java Swing 应 用 程序 的 形式 运行 DisplayKMeans , 并 查看 示例 的 输出 ， 
如 图 9-2 所 示 。 


图 9-2 ”在 这 个 k-means 聚 类 示例 中 ， 我 们 将 k 设 为 3， 并 试图 对 3 个 不 同 正 态 分 布 的 数据 点 进 
行 聚 类 。 较 细 的 线 表 示 前 一 次 迭代 所 估计 的 簇 一 一 你 可 以 清晰 的 看 到 簇 在 移动 


注意 ，k-means 的 in-memory 聚 类 实现 适用 于 Vector 对 象 的 列表 。 这 个 程序 的 内 存 用 量 取 决 
于 所 有 向 量 大 小 的 总 和 。 当 向 量 为 稀疏 向 量 时 ， 簇 的 大 小 要 大 于 向 量 的 大 小 , 若 为 密集 向 量 则 二 
者 大 小 相同 。 作 为 一 条 经 验 法 则 ， 内 存 需 求 量 包括 所 有 输入 向 量 的 大 小 之 和 ， 再 加 上 k 个 簇 中心 
的 大 小 。 但 当 数 据 量 太 大 时 ， 你 就 无 法 运行 这 一 聚 类 实现 。 

而 这 正 是 MapReduce 的 长 处 。 使 用 MapReduce 架 构 ， 你 可 以 将 聚 类 算法 分 配 到 不 同 的 机 器 上 
运行 , 每 个 mapper 处 理 这 些 点 的 一 个 子 集 。Mapper 作 业 将 以 流 的 形式 读 取 输入 数据 点 , 并 计算 出 
距离 这 部 分 点 最 近 的 簇 。 

MapReduce 版 的 k-means 算法 为 Hadoop 和 集群 而 设计 ,但 是 没有 Hadoop 时 也 能 高 效 地 运行 。 
Mahout 是 在 Hadoop 代 码 之 外 编译 的 ， 这 意味 着 你 可 以 在 没有 Hadoop 集 群 的 情况 下 ， 直 接 在 Java 
中 运行 同样 的 实现 ， 并 模拟 Hadoop 单 台 机 器 的 情形 。 

1. 理解 k-means 聚 类 的 MapReduce 作 业 

在 Mahout 中 ，MapReduce 版 的 k-means 算法 由 KMeansDriver 类 实例 化 。 该 类 只 有 一 个 人 
口 一 一 runJob 方 法 。 

你 已 经 在 第 7 章 中 见 过 k-means 的 实例 。 算 法 接受 如 下 输入 参数 。 

口 Hadoop 配 置 。 

口 包含 输入 Vector 的 SequenceFile。 

口 包含 初始 cluster 中 心 的 SequenceFile。 

口 用 到 的 相似 性 度量 。 我们 将 使 用 EuclideanDistanceMeasure 作 为 相似 性 度量 , 并 在 稍 

后 试验 其 他 度量 方式 。 
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口 convergenceThreshold 阅 值 。 如 果 一 次 迭代 中 ， 中 心 移动 量 少 于 这 个 距离 ， 则 不 再 继 
BEER, FPA RAR AR. 
O 迭代 数量 。 这 是 一 个 硬性 限制 ; MURAI SEA, MRA IE. 
Mahout 算 法 从 不 修改 输入 目录 。 因 此 你 可 以 灵活 地 试验 算法 的 各 种 不 同 参 数 。 对 于 Java 人 代码， 
你 可 以 以 如 下 代码 清单 中 的 方式 调用 入 口 函 数 ， 对 文件 系统 中 的 数据 进行 聚 类 。 


代码 清单 9-2 k-means REVA O 


KmeansDriver.runJob(hadoopConf, 
inputVectorFilesDirPath, clusterCenterFilesDirPath, 
outputDir, new EuclideanDistanceMeasure(), 
convergenceThreshold, numIterations, true, false); 


提示 Mahout 使 用 Hadoop 的 FileSystem 类 读 写 数据 。 这 使 得 我 们 可 以 无 颖 对 接 到 本 地 文件 系 
统 (通过 java.io ) 和 分 布 式 文件 系统 ， 如 HDFS 和 S3FS (使 用 Hadoop 内 部 类 )。 这 样 一 来 ， 
工作 于 本 地 文件 系统 上 的 代码 同样 可 以 工作 于 集群 上 的 Hadoop 文 件 系统 ， 只 要 在 环境 变 
量 中 正确 设置 了 Hadoop 配 置 文件 路 径 即 可 。 在 Mahout 中 ，bin/mahout 这 个 SHELL 脚 本 会 
自动 从 $SHADOOP_CONF' 环 境 变量 寻找 Hadoop 配 置 文件 。 


我 们 将 使 用 sparseVectorsFromSsedquenceFile 工 具 ( 曾 在 前 面 第 8 章 讨 论 过 ) 将 存放 在 
sequenceFile 中 的 文档 转化 为 向 量 。 因 为 k-means 算法 需要 用 户 输入 k 个 初始 中 心 ，MapReduce 
版 本 类 似 的 需要 你 输入 存放 k 个 中 心 的 文件 系统 路 径 。 为 了 生成 中 心 文件 ， 你 可 以 自 定义 一 些 逻 
辑 来 选 定 中 心 点 ， 如 我 们 在 代码 清单 7-2 的 Hello World 例 子 中 所 作 的 一 样 ， 或 者 你 可 以 让 Mahout 
随机 生成 上 个 中 心 ， 详 细 步 又 如 下 。 

2. 使 用 随机 种 子 生成 器 运行 k-means 作业 

下 面 我 们 按 第 8 章 ( 8.3 节 ) 介绍 过 的 方式 为 Reuters-21578 新 闻 集 生成 向 量 ， 然 后 在 此 基础 上 
运行 k-means 聚 类 。 在 那 一 章 中 ， 新 闻 集 被 转化 为 Vector 数据 集 ， 并 使 用 TF-IDF 度 量 作为 权重 。 
Reuters 集 包含 很 多 话题 类 别 , 所 以 你 可 以 把 k 设 为 20 并 观察 k-means 如 何 对 集合 中 广泛 的 话题 进行 
RE 

要 运行 k-means 聚 类 ， 我 们 的 必 选 参数 列表 包含 : 

口 Vector 格式 的 Reuters 数 据 集 ; 

口 用 于 生成 随机 中 心 种 子 的 RandomSeedGenerator; 

O SquaredEuclideanDistanceMeasure; 

O 较 大 的 convergenceThreshold(1.0)， 因 为 我 们 使 用 的 是 平方 欧 氏 距离 ; 

O maxIterations 设 为 20; 

O 簇 个 数 k 设 为 20。 

如 果 我 们 通过 DictionaryVectorizer 将 文本 转化 为 向 量 时 使 用 了 多 个 reducer， 
SequenceFile 格 式 的 向 量 数据 集 通 常会 被 分 割 为 多 个 块 。KkMeansDriver 假 定 输入 目录 中 所 有 
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的 文件 均 为 seauenceFile， 并 将 它们 全 部 读 入 。 所 以 不 必 担 心 向 量 被 分 割 到 不 同 的 块 中 ,它们 
将 由 Mahout 框 架 来 处 理 。 

包含 初始 中 心 的 目录 也 是 一 样 的 。 中 心 可 能 被 写 人 到 多 个 sequenceFile 文 件 , Mahout 会 读 
取 所 有 文件 。 对 于 实时 插入 数据 的 在 线 聚 类 系统 ,这 一 特性 非常 有 用 。 系 统 建 立 一 个 新 的 独立 文 
件 块 来 写 和 数据， 而 不 是 附 到 已 有 文件 的 末尾 ， 以 免 影响 正在 执行 的 算法 。 


警告 KMeansDriver 接 受 一 个 初始 徐 中 心目 录 作 为 参数 。 它 仅 在 -参数 未 设 定 的 时 候 认为 
SequenceFile 文 件 中 包含 了 中 心 。 若 指定 了 -k 参 数 ， 该 类 将 删除 此 目录 并 向 
SequenceFile 写 入 随机 选择 的 Kk 个 点 。 


KMeansDriver 还 是 对 Reuters-21578 新 闻 集 进行 k-means 聚 类 的 主 和 人口 点 。 在 命令 行 中 ， 以 
kmeans 为 程序 名 ， 在 Mahout 的 exmples 目 录 下 执行 Mahout 启 动 器 。KMeansDriver 将 使 用 
RandomSeedGenerator 随 机 选择 k 个 复 中 心 并 执行 k-means 聚 类 算法 。 


$ bin/mahout kmeans -i reuters-vectors/tfidf-vectors/ \ 

-c reuters-initial-clusters \ 

-o reuters-kmeans-clusters \ 

-dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure \ 
-cd 1.0 -k 20 -x 20 -cl 


我 们 使 用 Maven 的 Java 执 行 插件 来 指定 命令 行 参 数 并 运行 k-means 聚 类 。-k 20 参 数 指定 了 中 
心 是 由 Randomseedcenerator 随机 生成 的 ， 并 且 会 写 和 人 到 输入 复 文 件 夹 。 距 离 测 度 
SquaredEuclideanDistanceMeasure 不 需要 显 式 设 定 ， 因为 它 是 一 个 默认 参数 。 


提示 你 可 以 指定 -h 或 --help 命 令 行 标志 查看 任何 Mahout 包 的 完整 、 详 细 的 命令 行 标志 和 用 法 。 


一 且 命 令 开始 执行 , 聚 类 迭代 过 程 将 一 个 接 一 个 的 运行 等待 中 心 收敛 需要 点 儿 耐 心 \Hadoop 
监视 程序 会 在 一 轮 MapReduce 的 末尾 打印 计数 器 值 ,， 告诉 你 按照 指定 的 阀 值 ， 有 多 少 个 中 心 已 经 
收敛 : 


INFO: Counters: 14 
May 5, 2010 2:52:35 AM org.apache.hadoop.mapred.Counters log 


INFO: Clustering 
May 5, 2010 2:52:35 AM org.apache.hadoop.mapred.Counters log 
INFO: Converged Clusters=6 


May 5, 2010 2:52:35 AM org.apache.hadoop.mapred.Counters log 


如 果 使 用 上 述 参 数 在 内 存 中 完成 聚 类 ， 可 能 需要 不 到 一 分 钟 的 时 间 。 在 同样 的 数据 集 上 以 
MapReduce 作 业 的 方式 执行 同样 的 算法 , 则 可 能 需要 几 分钟 的 时 间 。 这 里 增加 的 时 间 来 自 Hadoop 
库 的 开销 。 在 开始 任何 map 或 reduce 任 务 之 前 ， 这 个 库 需 要 做 很 多 的 检查 ， 但 一 旦 开始 ，Hadoop 
的 mapper 和 reducer 就 会 全 速 运行 。 在 单机 环境 中 , 这 个 开销 会 降低 系统 的 执行 性 能 , 但 在 集群 上 ， 
这 种 延迟 带 来 的 不 良 影响 会 被 并 行 计算 所 节省 的 时 间 抵 消 掉 。 
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让 我 们 回 到 运行 k-means 的 控制 台 。 在 多 个 MapReduce 作 业 之 后 ,k-means 簇 收 敛 、 聚 类 结束 ， 
然后 点 和 簇 的 映射 被 写 人 输出 文件 夹 。 


提示 当 你 处 理 TB 级 的 数据 时 ,它们 无 法 放 入 内 存 ， MapReduce 版 的 算法 则 具有 较 好 的 扩展 性 ， 
它 可 以 将 数据 存放 在 Hadoop 分 布 式 文件 系统 (HDFS ) 中 并 在 大 型 集群 上 运行 算法 。 如 果 
你 的 数据 量 很 小 并 且 能 够 放 入 内 存 ， 那 么 就 应 该 使 用 in-memory 方 式 的 实现 。 如 果 你 的 数 
据 量 大 到 无 法 放 入 内 存 ， 就 应 该 使 用 MapReduce 并 考虑 将 计算 放 到 Hadoop 集 群 上 完成 。 
4 #A http://hadoop.apache.org/common/docs/r0.20.2/quickstart.html #4 HadoopRié 48H, VA 
找到 更 多 关于 在 Linux 机 器 上 搭建 伪 分 布 式 Hadoop 集 群 的 信息 。 


这 一 k-means 聚 类 的 实现 在 输出 文件 夹 中 建立 了 两 类 目录 clusters-* 目录 在 每 一 轮 欠 代 未 尾 
生成 : clusters-0 目 录 在 第 1 轮 迭 代 之 后 生成 ，clusters-1 目 录 在 第 2 轮 迭 代 之 后 生成 ， 以 此 类 推 。 这 
些 目 录 包 含 了 簇 的 信息 : 中 心 、 标 准 差 等 。 另 一 方面 ，clusteredPoints 目 录 包 含 了 从 簇 人 D 到 文档 ID 
的 最 终 映射 。 这 一 数据 是 根据 最 后 一 轮 MapReduce 操 作 的 输出 生成 的 。 

输出 文件 夹 的 目录 列表 与 下 面 类 似 : 


$ ls -1 reuters-kmeans-clusters 

drwxr-xr-x 4 user 5000 136 Feb 1 18:56 clusters-0 
drwxr-xr-x 4 user 5000 136 Feb 1 18:56 clusters-1 
drwxr-xr-x 4 user 5000 136 Feb 1 18:56 clusters-2 


ee 4 user 5000 136 Feb 1 18:59 clusteredPoints 

聚 类 完成 之 后 ， 你 需 检 查 簇 并 观察 它们 是 如 何 形成 的 。Mahout 提供 了 一 个 叫做 org .apache . 
mahout .utils.clustering .Clusterpumper 的 功能 , 它 可 以 读 取 任 何 聚 类 算法 的 输出 ,并 显示 
各 个 簇 的 项 层 条 目 ， 以 及 属于 该 艇 的 文档 。 运 行 如 下 命令 执行 ClusterDumper: ® 


$ bin/mahout clusterdump -dt sequencefile \ 
-d reuters-vectors/dictionary.file-* \ 
-s reuters-kmeans-clusters/clusters-19 -b 10 -n 10 


该 程序 需要 词典 文件 作为 输入 。 这 是 为 了 将 特征 ID 或 vectoz 的 维度 转化 为 词 。 
在 最 后 一 轮 迭 代 的 输出 文件 夹 上 执行 ClusterDumper j 会 得 到 如 下 输出 : 


Td: 11736: 
Top Terms: debt, banks, brazil, bank, billion, he, payments, billion 
dlrs, interest, foreign 
ids 11235: 
Top Terms: amorphous, magnetic, metals, allied signal, 19.39, corrosion, 
allied, molecular, mode, electronic components 


Tas 20073: 
Top Terms: ibm, computers, computer, att, personal, pc, operating system, 
intel, machines, dos 


O Mahout-0.7 中 ， 需 要 通过 -i 指 定 聚 类 结果 目录 ， 并 通过 -o 选 项 指定 输出 文件 。 一 一 译 者 注 
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每 次 运行 的 结果 会 有 所 不 同 ， 原 因 在 于 k 个 中 心 是 用 随机 种 子 生成 器 选择 的 ， 而 最 终结 果 很 
大 程度 上 取决 于 这 些 中 心 。 在 前 面 的 输出 中 , IDV 11736 PSE AT AY Fin] A bank, brazil, billion, 
debt 等 。 此 簇 中 的 大 部 分 文章 都 是 谈论 这 些 话题 的 新 闻 。 注 意 吃 为 20073 的 簇 讨论 的 是 涉及 计算 
机 及 相关 公司 的 话题 (IBM、AT&T、PC 等 )。 

正如 你 所 看 到 的 ， 使 用 squaredEuclideanDistanceMeasure 这 个 距离 测 度 标准 可 以 得 到 
一 个 效果 不 错 的 聚 类 结果 ， 但 花 了 10 次 以 上 的 迭代 才 得 到 最 终结 果 。 文 本 数据 的 特殊 之 处 在 于 ， 
两 个 内 容 相似 的 文档 未 必 有 相同 的 长 度 , 而 长 度 不 同 却 话题 相似 的 两 个 文档 之 间 的 欧 氏 距离 会 很 
大 。 也 就 是 说 , 单词 个 数 的 差异 对 两 篇 文档 欧 氏 距离 的 影响 更 大 一 些 , 公共 词汇 对 两 篇 文档 影响 
较 小 。 为 了 更 好 地 理解 这 一 点 ， 请 重 温 7.4.1 节 中 有 关 欧 氏 距 离 公式 的 实验 。 

这 些 因素 导致 欧 氏 距离 不 适用 于 文本 文档 。 看 看 下 面 这 个 使 用 欧 氏 距离 测度 生成 的 簇 : 


Id: 20978: 
Top Terms: said, he, have, market, would, analysts, he said, from, which, 
has 


这 个 簇 实在 是 没有 任何 意义 ,特别 是 像 said, he 和 the 这 些 单词 。 要 想 真 正在 一 个 数据 集 上 得 
到 好 的 聚 类 结果 ， 你 需要 尝试 7.4 节 提 及 的 Mahout 中 各 种 不 同 的 距离 测度 ， 并 比较 它们 处 理 你 的 
数据 集 时 所 表现 的 性 能 。 

我 们 已 经 知道 余弦 距离 和 谷 本 度量 用 于 文本 文档 的 效果 很 好 , 因为 它们 更 依赖 于 公共 词汇 而 
受 非 公 共 词 汇 的 影响 较 小 。 为 验证 这 一 点 , 我 们 将 在 Reuters 数 据 集 上 进行 实验 , 并 将 其 输出 与 之 
前 聚 类 的 输出 相 比 较 。 让 我 们 来 运行 基于 cosineDistanceMeasure 的 k-means: 


$ bin/mahout kmeans -i reuters-vectors/tfidf-vectors/ \ 

-c reuters-initial-clusters \ 

-o reuters-kmeans-clusters \ 

-dm org.apache.mahout.common.distance.CosineDistanceMeasure \ 
-cd 0.1 -k 20 -x 20 -cl 


注意 ， 本 例 中 收敛 贱 值 设 为 0.1， 而 不 是 默认 值 0.5 ， 这 是 因为 余弦 距离 的 范围 是 0 到 1。 程 序 
运行 时 ， 有 一 点 需要 特别 注意 : 由 于 余弦 距离 引入 了 额外 的 计算 ， 聚 类 速度 有 所 下 降 ,， 但 聚 类 过 
程 在 几 次 迭代 之 后 就 收 化 了 , 而 使 用 欧 氏 平方 距离 测度 的 聚 类 过 程 则 需要 10 次 以 上 的 迭代 。 这 清 
楚 的 表明 余弦 距离 比 欧 氏 距离 更 好 的 反映 了 文本 文档 的 相似 度 。 

聚 类 完成 后 ,我 们 可 以 在 结果 上 运行 Clusterpumper， 并 查看 各 个 簇 中 靠 前 的 单词 。 下 面 
是 一 些 有 趣 的 簇 : 

Id: 3475:name: 

Top Terms: iranian, iran, iraq, iraqi, news agency, agency, news, gulf, 
war, offensive 

Id: 20861:name: 


Top Terms: crude, barrel, oil, postings, crude oil, 50 cts, effective, 
raises, bbl, cts 


基于 Mahout 中 k-means 算 法 的 实验 ， 可 以 找到 在 特定 聚 类 问题 上 pistanceMeasure 和 
convergenceThreshold 的 最 佳 组 合 。 可 以 在 不 同 数据 上 进行 尝试 ， 并 观察 所 得 到 的 结果 。 你 
可 以 探究 Mahout 中 的 各 种 距离 测度 ， 或 尝试 自己 的 距离 测度 。 昌 然 k-means 可 以 在 随机 种 子 簇 的 
基础 上 得 到 很 好 的 结果 ， 但 最 终 的 中 心 位 置 还 是 很 依赖 于 它们 的 初始 位 置 。 
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k-means 算法 是 一 种 优化 技术 。 给 定 初 始 条 件 ，k-means 试 图 把 中 心 放 到 它们 的 最 佳 位 置 。 但 
它 是 一 种 贪 禁 优化 ,这 使 得 它 只 是 寻找 局 部 最 优 解 。 可 能 有 其 他 中 心 位 置 也 满足 收敛 性 质 , 而 且 
它们 当中 可 能 有 些 会 比 我 们 所 得 到 的 结果 更 好 。 我 们 可 能 永远 也 找 不 到 完美 的 簇 , 但 我 们 可 以 通 
过 强 有 力 的 技术 来 通 近 它 。 


9.1.3 ”通过 canopy 聚 类 寻找 最 佳 k 值 


对 于 很 多 现实 中 的 聚 类 问题 ,事先 并 不 知道 复 的 个 数 , 例如 第 7 章 中 图 书馆 书籍 分 组 的 问题 。 
有 一 类 称 为 近似 聚 类 算法 的 技术 可 以 根据 给 定数 据 集 估 计 复 的 数量 以 及 近似 的 中 心 位 置 。 其 中 的 
一 个 算法 称 为 canopy 生 成 (canopy generation ) 算法 。 

默认 情况 下 ，Mahout 中 的 k-means 实现 使 用 RandomSeedGenerator 类 生成 包含 k 个 向 量 的 
SequenceFile。 尽 管 随机 中 心 的 生成 速度 很 快 ， 但 无 法 保证 为 个 簇 估计 出 较 好 的 中 心 。 中 心 
舍 计 极 大 地 影响 着 k-means 的 运行 时 间 。 好 的 估计 有 助 于 算法 更 快 地 收敛 ， 对 数据 的 遍历 次 数 也 
会 更 少 。 另 外 , 最 好 能 够 根据 数据 自动 确定 簇 的 个 数 , 但 canopy 算 法 仍然 需要 知道 期 望 的 得 大 小 ， 
它 才 能 找到 接近 该 大 小 的 簇 个 数 。 

1. 使 用 canopy 生 成 算法 来 初始 化 k-means 中 心 

canopy 生 成 算法 也 被 称 为 canopy 聚 类 ， 是 一 种 快速 近似 的 聚 类 技术 。 它 将 输入 数据 点 划分 为 
一 些 重 符 的 艇 ， 称 为 canopy。 在 这 一 上 下 文中 ， 术 语 canopy 指 一 组 相近 的 点 ,或 一 个 艇 。canopy 
聚 类 基于 两 个 距离 闵 值 ， 试 图 估计 出 可 能 的 簇 中 心 (或 canopy 中 心 )。 

canopy 限 类 的 优势 在 于 它 得 到 簇 的 速度 非常 快 , 它 只 需 遍 历 一 次 数据 即 可 得 到 结果 。 这 一 优 
势 也 是 它 的 弱点 。 该 算法 无 法 给 出 精准 的 徐 结 果 。 但 它 可 以 给 出 最 优 的 艇 数量 , 不 需要 像 k-means 
那样 预先 指定 簇 数量 K。 

算法 使 用 了 一 个 快速 的 距离 测度 和 两 个 距离 阔 值 (TI/ 和 T,，， 其 中 Ti>T，。 它 从 一 个 包含 若干 
点 的 数据 集 和 一 个 空 的 canopy 列 表 开 始 ， 然 后 迭代 这 些 数据 ， 并 在 迭代 过 程 中 生成 canopy。 在 每 
一 轮 迭 代 中 ,， 它 从 数据 集中 移 除 一 个 点 并 将 一 个 以 该 点 为 中 心 的 canopy 加 入 列表 。 然 后 遍历 数据 
集中 余下 的 数据 点 。 对 每 一 个 点 ， 它 会 计算 其 到 列表 中 每 个 canopy 的 中 心 的 距离 。 如 果 距 离 均 小 
于 Ti， 则 将 其 加 入 该 canopy。 若 距离 小 于 Tz， 则 将 其 移出 数据 集 ， 以 免 在 接 下 来 的 循环 中 用 它 建 
立新 的 canopy。 重 复 上 述 过 程 ， 直 到 数据 集 为 空 。 

这 种 方法 可 以 防止 紧邻 一 个 现 有 canopy 的 点 (距离 小 于 T, ) 成 为 新 的 canopy 中 心 。 我 们 不 希 
望 在 一 个 现 有 canopy 的 附近 生成 一 个 见 余 canopy。 图 9-3 显 示 了 使 用 此 方法 所 创建 的 canopy。 其 中 
复 的 形成 仅仅 依赖 于 距离 靖 值 的 选取 。 

2. 理解 canopy 生 成 算法 

canopy 生 成 算法 通过 canopyClusterer 或 CanopyDriver 类 来 执行 。 前 者 实现 in-memory 方 
式 的 聚 类 ， 而 后 者 将 其 实现 为 MapReduce 作 业 。 这 些 作 业 可 以 像 普 通 Java 程 序 一 样 运行 ， 读 写 磁 
盘 上 的 数据 。 它 们 也 能 运行 在 Hadoop 集 群 上 ， 读 写 分 布 式 文件 系统 上 的 数据 。 
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图 9-3 ”canopy 聚 类 : 如 果 你 从 一 个 点 开始 (左上) ,并 将 其 标记 为 一 个 canopy 的 一 部 分 ， 距 
离 T2 以 内 的 所 有 点 (右上 ) 被 从 数据 集中 删除 ， 以 免 它们 形成 新 的 canopy。 外 圆 内 的 
点 (左下 ) 被 放 入 同一 canopy， 但 它们 也 可 以 属于 其 他 canopy。 这 一 分 配 过 程 是 在 一 
次 mapper 过 程 中 完成 的 。Reducer 计 算 中 心 均 值 (AP ) 并 合并 相近 的 canopy 


我 们 这 里 所 用 的 随机 点 发 生 器 与 前 面 在 二 维 平面 内 所 用 的 相同 , 也 会 生成 服从 正 态 分 布 的 随 
机 点 。 对 于 本 例 ， 我 们 将 生成 三 维 正 态 分 布 。 代 码 清单 9-3 通 过 canopyclusterer 以 in-memory 
方式 运行 canopy 聚 类 ， 并 使 用 如 下 参数 : 

口 输入 向 量 为 List<Vector> 格 式 ; 

口 DistanceMeasure 为 EuclideanDistanceMeasure; 
DT 的 值 为 3.0; 
口 T; 的 值 为 1.5。 

代码 清单 9-3 ”以 in-memory 方 式 运 行 的 canopy 生 成 算法 示例 


public static void CanopyExample() { 
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List<Vector> sampleData = new ArrayList<Vector>(); 


A 生成 三 个 点 集 


generateSamples(sampleData, 400, 1, 1, 2); 
generateSamples(sampleData, 300, 1, 0, 0.5); 
generateSamples(sampleData, 300, 0, 2, 0.1); 


| 运行 CanopyClusterer 
List<Canopy> canopies = CanopyClusterer.createCanopies ( 


sampleData, new EuclideanDistanceMeasure(), 3.0, 1.5); 


for(Canopy canopy : canopies) { 


System.out.println("Canopy id: " + canopy.getId() 
+ " center: " + ,| 读 取 canopy 中 心 并 打印 
canopy.getCenter().asFormatString()); 


} 
} 


在 Mahoutmahout-examples 模 块 中 的 Displaycanopy 类 可 显示 二 维 平面 内 的 点 集 , 利用 它 
可 以 显示 出 in-memory 方 式 的 canopyCclusterer 是 如 何 生成 canopy 的 。DisplayCanopy 的 典型 
输出 如 图 9-4 所 示 。 


图 9-4 使 用 pisplaycanopy 类 可 视 化 一 个 in-memory 方 式 的 canopy 生 成 示例 ， 它 
包含 在 Mahout 自 带 的 示例 程序 中 。 我 们 使 用 参数 T1=3.0 和 T2=1.5 对 随机 生 
成 的 点 进行 聚 类 


canopy 皮 类 不 要 求 你 指定 簇 中 心 的 个 数 。 中 心 个 数 的 确定 仅仅 依赖 于 距离 测度 ,T1 和 T2 的 选择 。 
与 k-means 的 实现 类 似 , in-memory 方 式 的 canopy 聚 类 作用 于 一 个 vector 对 象 的 列表 。 如 果 数 据 集 很 
大 ， 这 个 算法 就 无 法 在 单 台 机 器 上 运行 ， 而 需要 用 MapReduce 作 业 了 。MapReduce 版 的 canopy 聚 类 
实现 使 用 了 一 点 近似 估算 ， 所 以 对 于 同一 个 输入 数据 集 来 说 ， 它 生成 的 结果 与 in-memory 版 的 结果 
有 细微 差别 。 当 数据 集 很 大 时 , 这 点 区 别 是 微不足道 的 。canopy 聚 类 的 输出 很 适合 用 来 作为 k-means 
的 起 始点 ， 因 为 初始 中 心 的 准确 性 较 之 随机 选择 要 高 ， 所 以 能 够 改善 聚 类 效果 。 

使 用 所 生成 的 canopy， 你 可 以 将 点 赋 给 最 近 的 canopy 中 心 ， 理 论 上 这 就 是 对 点 进行 聚 类 。 我 
们 称 之 为 canopy 聚 类 , 而 不 是 canopy 生 成 。 在 Mahout 中 ,CanopyDriver 用 于 canopy 中 心 的 生成 ， 
而 将 runclustering 参 数 设 为 Ltrue， 即 可 实现 对 数据 点 进行 聚 类 。 

下 面 ， 你 将 在 Reuters 数 据 集 上 运行 canopy 生 成 ， 并 确定 k 值 。 


9.1 k-means 聚 类 137 


3. 运行 canopy 生 成 算法 来 选择 k 个 中 心 

现在 我 们 来 为 Reuters 的 Vector 数 据 集 生成 canopy 中 心 。 要 生成 中 心 ， 你 需要 先 设 定 距离 测 
度 为 EuclideanDistanceMeasure， 并 使 用 阅 值 :1=2000 和 t2=1500。 注 意 ,， 使 用 欧 氏 距离 测 
度 时 ， 稀 朴 文 档 向 量 的 距离 会 很 大 ， 所 以 要 得 到 有 意义 的 簇 ， 需 要 把 t1 和 t2 的 值 设 得 大 一 些 。 

本 例 中 选取 的 距离 阔 值 (上 t1 和 t2 ) 在 Reuters 数 据 集 上 生成 了 不 到 50 个 中 心 。 我 们 在 输入 数 
据 上 多 次 运行 canopyDriver， 就 可 以 对 国 值 的 选择 有 个 估计 。 因 为 canopy 聚 类 很 快 ， 使 用 多 组 
不 同 的 参数 进行 实验 并 观察 结果 要 比 像 k-means 这 样 耗 时 的 技术 快 得 多 。 

要 在 Reuters 数 据 集 上 执行 canopy 生 成 的 操作 ,只 需 通 过 Mahout 启 动 器 运行 canopy 程 序 ， 如 下 
所 示 : 

$ bin/mahout canopy -i reuters-vectors/tfidf-vectors \ 

-O reuters-canopy-centroids \ 


-dm org.apache.mahout.common.distance.EuclideanDistanceMeasure \ 
-七 L 1500 -t2 2000 


不 到 一 分 钟 ，canopyDriver 就 会 在 输出 文件 夹 中 生成 中 心 。 你 可 以 使 用 簇 输出 工具 检查 
canopy 中 心 ， 就 如 你 在 本 章 前 面 对 k-means 聚 类 结果 所 做 的 一 样 。 

下 面 ， 我 们 将 使 用 这 个 中 心 集合 来 改善 kt-means 聚 类 。 

4. 使 用 canopy 中 心 改进 k-means 聚 类 

现在 我 们 可 以 使 用 前 一 节 中 生成 的 canopy 中 心 来 运行 k-means 聚 类 算法 了 。 为 此 ， 需 要 在 
KMeansDriver 的 艇 参数 ( -c ) 中 设置 canopy 聚 类 结果 的 输出 文件 夹 , 并 去 掉 -k 命 令 行 参数 。( 注 
意 : 如 果 设 定 了 -k 标 志 ，RandomSeedGenerator 会 覆盖 canopy 中 心 文件 夹 。) 

我 们 将 在 k-means 中 使 用 TanimotoDistanceMeasure 以 得 到 簇 : 


$ bin/mahout kmeans -i reuters-vectors/tfidf-vectors \ 

-o reuters-kmeans-clusters \ 

-dm org.apache.mahout.common.distance.TanimotoDistanceMeasure \ 
-c reuters-canopy-centroids/clusters-0 -cd 0.1 -ow -x 20 -cl 


完成 聚 类 后 ， 使 用 clusterDumpez 来 检查 篮 ， 部 分 结果 如 下 : 


Id: 21523:name: 

Top Terms: 
tones, wheat, grain, said, usda, corn, us, sugar, export, agriculture 
Id: 21409:name: 

Top Terms: 
stock, share, shares, shareholders, dividend, said, its, common, board, 

company 

Id: 21155:name: 

Top Terms: 
oil, effective, crude, raises, prices, barrel, price, cts, said, dlrs 
Id: 19658:name: 

Top Terms: 
drug, said, aids, inc, company, its, patent, test, products, food 
Id: 21323:name: 

Top Terms: 

7-apr-1987, 11, 10, 12; 07; 09;. 15, 16, 02; 27 


注意 最 后 一 个 簇 。 尽 管 其 他 徐 看 上 去 都 是 一 些 比较 不 错 的 话题 ,最 后 一 个 看 起 来 却 毫 无 意义 。 
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不 过 ， 正 是 因为 这 些 文档 中 同时 出 现 了 这 些 词 条 ， 聚 类 算法 才 将 含有 这 些 词 条 的 文档 归 为 一 组 。 
另外 ， 像 its 和 said 这 样 的 单词 从 语言 角度 来 讲 是 没有 意义 的 ， 但 算法 却 不 知道 这 一 点 。 只 要 被 赋 
予 较 大 权重 的 向 量 特征 能 够 很 好 地 表现 文档 的 特征 ， 任 何 聚 类 算法 都 能 得 到 好 的 聚 类 结果 。 

在 8.3 节 和 8.4 节 中 ， 你 已 经 看 到 TF-IDF 和 归 一 化 如 何 将 较 高 的 权重 赋 给 重要 的 特征 ， 而 将 较 
低 的 权重 赋 给 停 用 词 , 但 即使 这 样 ,偶尔 也 会 出 现 意 想 不 到 的 簇 。 要 避免 此 问题 ,一 个 快速 而 有 
效 的 方法 就 是 将 这 些 停 用 词 从 文档 的 Vector 中 删除 。 在 下 一 个 案例 学 习 中 ， 你 将 看 到 如 何 使 用 
一 个 自 定义 的 Lucene Analyzer 类 来 解决 此 问题 。 

canopy 聚 类 是 一 个 很 好 的 近似 队 类 技术 ,但 它 有 内 存 限 制 。 如 果 距 离 阐 值 很 接近 ， 就 会 产生 
太 多 的 canopy， 而 这 将 增加 mapper 中 的 内 存 用 量 。 当 运行 在 一 个 很 大 的 数据 集 上 ， 又 选择 了 不 合 
适 的 立 值 时 ,就 可 能 会 超出 可 用 内 存 。 下 面 你 将 看 到 , 需要 调 优 参数 以 适应 这 个 数据 集 及 其 聚 类 
问题 。 

下 面 我 们 将 要 看 到 的 例子 是 为 一 个 新 闻 网 站 创建 案 类 模块 。 我 们 之 所 以 选取 新 闻 网 站 的 例 
FT, 是 因为 它 代表 了 一 种 典型 的 动态 系统 , 需要 很 精确 地 组 织 它 的 内 容 。 聚 类 可 以 帮助 解决 与 这 
种 与 内 容 系 统 相 关 的 问题 。 


9.1.4 ”案例 学 习 : 使 用 k-means 对 新 闻 聚 类 


在 这 个 案例 中 , 我 们 将 假设 自己 在 管理 一 个 虚构 的 新 闻 聚 合 网 站 , 网 站 名 为 AlIMyNews.com。 
访问 网 站 的 用 户 通过 关键 词 搜索 需要 的 内 容 。 如 果 他 们 看 到 一 篇 有 趣 的 文章 , 可 以 用 文中 的 词汇 
搜索 相关 文章 , 也 可 以 进入 该 文 所 属 的 新 闻 类 别 并 浏览 相关 新 闻 。 通常 我 们 依靠 人 工 编辑 来 寻找 
相关 项 ,并 协助 对 整个 网 站 进行 分 类 和 设置 交叉 链接 。 但 如 果 每 天 有 数 万 条 文章 ， 人 工 干 预 的 代 
价 就 太 大 了 。 下 面 我 们 讨论 如 何 用 聚 类 算法 解决 这 一 问题 。 

使 用 聚 类 算法 ,我 们 可 以 自动 找到 相关 话题 ， 并 给 予 用 户 一 个 更 好 的 浏览 体验 。 本 节 中 , 你 
将 使 用 k-means 聚 类 实现 这 一 功能 。 图 9-5 是 该 功能 在 实际 应 用 中 的 一 个 例子 。 对 于 网 站 上 的 一 则 
新 闻 报 道 ， 我 们 将 为 用 户 呈 现 一 个 相关 新 闻 文章 的 列表 。 

Obama to Name ‘Smart Grid’ Projects 
Wail Street Journal - sy ae hour ago 
The Obama administration is expected Tuesday to name 100 
utility projects that will share $3.4 billion in federal stimulus 
funding to s; deployment of advanced tec desi 
Cobb Peg d a's wi? oe st ar rt Sint 
all 594 news articles » [Email this story 
图 9-5 HX A Google News 网 站 的 一 个 相关 文章 功能 的 示例 。 同 一 簇 中 类 似 报道 的 链接 在 
底部 以 粗 体 字 显示 ， 而 相关 度 靠 前 的 文章 在 这 些 粗 体 字 上 面 以 链接 的 方式 显示 


对 任何 给 定 文 章 , 我 们 都 可 以 存储 其 所 属 的 徐 。 当 一 个 用 户 请 求 与 他 们 正在 阅读 的 文章 相关 
的 文章 时 ,我们 将 选 出 该 簇 中 的 所 有 文章 ， 并 基于 它们 与 给 定 文章 的 距离 排序 并 呈现 给 用 户 。 
对 于 新 闻 聚 类 系统 来 说 ， 上 面 给 出 了 一 个 很 好 的 初始 设计 , 但 它 并 不 完美 。 下 面 , 我 们 列 出 
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了 一 些 实际 应 用 中 可 能 要 面 对 的 问题 。 
口 每 一 分 钟 都 有 文章 到 来 ， 网 站 需要 刷新 它 的 徐 和 索引 。 
O 可 能 在 同一 时 间 内 产生 多 个 头条 新 闻 ， 我 们 需要 为 它们 建立 不 同 的 复 ， 这 意味 着 每 次 发 
生 这 种 情况 时 ， 我 们 都 需要 添加 更 多 的 中 心 。 
口 文本 内 容 的 质量 没有 保证 ， 因 为 数据 有 多 个 来 源 。 我 们 需要 在 特征 选择 时 有 一 种 内 容 清 
理 机 制 。 

我 们 将 首先 实现 一 个 高 效 的 k-means 聚 类 ， 离 线 地 对 新 闻 文 章 进行 聚 类 。 这 里 ， 离 线 这 个 词 
表示 我 们 将 把 文档 写 人 SequenceFile 并 以 后 台 进 程 的 形式 启动 聚 类 过 程 。 我们 不 会 深入 探讨 新 
闻 数 据 如 何 存 储 。 为 简单 起 见 ， 我 们 假设 文档 存储 和 检索 模块 不 能 简单 地 被 奉 换 为 对 数据 库 读 / 
写 的 代码 。 
注意 在 后 续 章 节 中 ， 我 们 将 修改 这 个 案例 ， 并 引入 Mahout 中 的 一 些 高 阶 技术 来 解决 与 速度 和 

质量 相关 的 问题 。 最 终 ， 在 第 12 章 我 们 将 展示 一 个 可 用 的 、 调 优 的 并 且 可 扩展 的 聚 类 示 
例 ， 用 于 一 些 现实 中 的 数据 集 ， TT Pe: 

代码 清单 9-4 展示 了 对 sequenceFile 中 的 新 闻 文 章 聚 类 的 代码 ， 代 码 清单 9-5 展 示 了 一 个 自 

定义 的 Lucene Analyzer 类 ， 它 将 非 字 母 字符 从 数据 中 删除 。 


代码 清单 9-4 ”使 用 canopy 生 成 和 k-means 聚 类 对 新 闻 进 行 聚 类 


public class NewsKMeansClustering { 


public static void main(String args[]) throws Exception { 
int minSupport = 2; 
int minbE = 5; 
int maxDFPercent = 95; 
int maxNGramSize = 2; 
int minLLRValue = 50; 
int reduceTasks = 1; 
int chunkSize = 200; 
int norm = 2; 
boolean sequentialAccessOutput = true; 
String inputDir = “inpuwtDir"; 


Configuration conf = new Configuration(); 
FileSystem fs = FileSystem.get (conf); 


String outputDir = "newsClusters"; 
HadoopUtil.delete(new Path(outputDir) ); 


Path tokenizedPath = new Path(outputDir, | 自 定义 Lucene 


DocumentProcessor.TOKENIZED_DOCUMENT_OUTPUT_FOLDER) ; Analyzer 


MyAnalyzer analyzer = new MyAnalyzer()j; 
DocumentProcessor.tokenizeDocuments (new Path(inputDir), 
analyzer.getClass().asSubclass(Analyzer.class), 
tokenizedPath, conf); < 人- 文本 词 条 化 


DictionaryVectorizer.createTermFrequencyVectors (tokenizedPath, 
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new Path(outputDir), conf, minSupport, maxNGramSize, minLLRValue, 
2, true, reduceTasks, 
chunkSize, sequentialAccessOutput, false); 
TFIDFConverter.processTfIdf ( 
new Path(outputDir , 
DictionaryVectorizer.DOCUMENT_VECTOR_OUTPUT_FOLDER) , 
new Path(outputDir), conf, chunkSize, minDf, 
maxDFPercent, norm, true, sequentialAccessOutput, false, 计算 TF-IDF 向 量 
reduceTasks) ; 
Path vectorsFolder = new Path(outputDir, "tfidf-vectors") ; 
Path canopyCentroids = new Path(outputDir , 
"“canopy-centroids") ; 
Path clusterOutput = new Path(outputDir , "“clusters"); 


执行 canopy 中 心 生 成 
CanopyDriver.run(vectorsFolder, canopyCentroids, 
new EuclideanDistanceMeasure(), 250, 120, 
false, false); 
KMeansDriver.run(conf, vectorsFolder, 
new Path(canopyCentroids, "clusters-0"), 
clusterOutput, new TanimotoDistanceMeasure(), 0.01, 
20, true, false); 


al 运行 k-means 算 法 


SequenceFile.Reader reader = new SequenceFile.Reader(fs, 
new Path(clusterOutput 
+ Cluster.CLUSTERED_POINTS_DIR + "/part-00000"), conf); 


IntWritable key = new IntWritable(); 

WeightedVectorWritable value = new WeightedVectorwritable(); 

while (reader.next(key, value)) { 
System.out.printlin(key.toString() + " belongs to cluster " 
+ value.toString()); 


} 读 取 vectorz 做 聚 类 映射 


reader.close(); 


代码 清单 9-5 ”一 个 自 定义 的 用 于 过 滤 非 字母 字符 的 Lucene 分 析 器 


public class MyAnalyzer extends Analyzer { 
private final Pattern alphabets = Pattern.compile("[a-z]+"); 


@Override 

public TokenStream tokenStream(String fieldName, Reader reader) { 

TokenStream result = new StandardTokenizer ( 
Version.LUCENE_CURRENT, reader); 
result = new StandardFilter(result) ; 
result = new LowerCaseFilter(result) ; 
result = new StopFilter(true, result, 


,| 使 用 Lucene 过 滤器 
StandardAnalyzer.STOP_WORDS_SET) ; 


TermAttribute termAtt = 
(TermAttribute) result.addAttribute( 
TermAttribute.class) ; 
StringBuilder buf = new StringBuilder(); 
try { 
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while (result.incrementToken()) { | 过 滤 短 词 条 
if (termAtt.termLength() < 3) continue; 
String word = new String ( 
termAtt.termBuffer(), 0, termAtt.termLength()); 
Matcher m = alphabets.matcher (word) ; 


if (m.matches()) { 


buf .append (word) .append(" "); | 过 滤 非 字母 词 条 
} 

} 
} catch (IOException e) { 

e.printStackTrace(); 


} 


return new WhiteSpaceTokenizer(new StringReader (buf.toString())); 
} 
} 


这 个 NewsKMeansClustering 示 例 很 简单 。 文 档 被 存储 在 输入 目录 中 。 我 们 在 此 基础 上 创建 仅 
包含 字母 字符 的 一 元 和 二 元 组 向 量 。 使 用 生成 的 vector 作 输入 , 我 们 运行 canopy 中 心 生成 作业 来 创 
建 k-means 聚 类 算法 的 初始 中 心 。 最 终 ， 在 k-means 聚 类 结束 后 ， 我 们 读 取 输 出 并 将 其 存 人 数据 库 。 

下 一 节 我 们 将 在 k-means 的 基础 上 更 进一步 ， 介 绍 Mahout 中 的 其 他 聚 类 算法 。 


9.2 ”超越 k-means: 聚 类 技术 概览 


k-means 属于 刚性 的 聚 类 。 例 如 ， 一 则 谈论 政治 对 生物 技术 影响 的 新 闻 报道 ， 既 可 以 归 为 政 
治 类 别 ,， 也 可 以 归 为 生物 技术 类 别 ,， 但 不 能 同时 归 为 这 两 个 类 别 。 既 然 我 们 希望 优化 相关 文章 这 
一 特性 , 那 可 能 就 需要 允许 重 秋 或 模糊 的 信息 。 我 们 也 许 还 需要 对 数据 点 分 布 建 模 ， 这 已 经 超出 
了 k-means 设计 的 初衷 。 

k-means 只 是 众多 聚 类 算法 中 的 一 种 。 下 面 我 们 介绍 其 他 一 些 为 不 同 目的 而 设计 的 聚 类 算法 。 


9.2.1 不 同类 型 的 聚 类 问题 


回想 一 下 ， 聚 类 仅仅 是 一 个 对 事物 分 组 的 过 程 。 要 想 在 简单 分 组 的 基础 上 更 进一步 ， 你 需要 
了 解 不 同类 型 的 聚 类 问题 。 这 些 问题 及 其 解决 方案 主要 分 为 四 类 : 
O 排他 性 聚 类 ; 
口 ABBR; 
口 层次 聚 类 ; 

口 PARA, 

下 面 我 们 逐一 介绍 。 

1. 排他 性 聚 类 

在 排他 性 聚 类 中 , 一 个 物品 只 能 属于 一 个 类 别 。 回 忆 第 7 章 中 讨论 过 的 图 书馆 书籍 聚 类 问题 。 
我 们 可 以 简单 地 把 一 本 像 《 哈 利 . 波 特 》 这 样 的 书 归 入 小 说 类 书籍 。 因 此 ,《 哈 利 : 波 特 》 只 属 
于 小 说 类 。k-means 实 现 的 就 是 这 种 排他 性 聚 类 ， 因 此 ， 如 果 聚 类 问题 需要 这 一 约束 ，k-means 通 
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常 都 可 以 搞定 。 
2. ABBR 
如 果 我 们 想 要 做 的 是 非 排 他 性 聚 类 ， 即 不 仅 把 《 哈 利 : 波 特 》 归 入 小 说 中 ,而且 将 其 归 入 年 
轻 人 类 别 和 玄幻 类 别 。 有 重生 聚 类 算法 ， 如 模糊 k-means 等 就 很 容易 实现 这 一 点 。 此 外 ， 模 糊 
k-means 能 显示 出 对 象 与 徐 的 相关 程度 。 相 对 于 年 轻 人 类 别 ,《 哈 利 : 波 特 》 可 能 与 玄幻 更 为 相 
近 。 排 他 性 聚 类 与 有 重 炙 聚 类 之 间 的 区 别 在 图 9-6 中 给 出 。 
排他 性 聚 类 HARA 


Pee 


(0, 0) (0, 0) 

图 9-6 PA EEE 心 上 的 对 比 。 对 于 前 者 ， 方正 和 三 角形 分 别 有 
自己 的 徐 ， 且 每 个 图 形 仅仅 属于 一 个 艇 。 而 在 有 重合 肾 类 中 ， 某 些 形状 ( 如 图 中 
的 五 角形 ) 可 以 同时 属于 两 个 不 同 的 簇 ， 因 此 它们 同时 是 两 个 艇 的 组 成 部 分 


3. 层次 聚 类 
现在 ,假设 我 们 有 两 个 簇 分 别 代表 不 同类 型 的 书籍 ， 其 中 一 个 是 玄 纠 ， 男 一 个 是 太空 旅行 。 


CURA + 波 特 》 属 于 玄幻 类 书籍 , 但 太空 旅行 和 玄幻 这 两 个 艇 都 可 以 被 看 做 是 小 说 的 子 簇 。 因 此 ， 
通过 合并 这 两 个 徐 ， 以 及 其 他 一 些 相似 的 艇 ,我 们 可 以 构建 出 一 个 小 说 徐 。 现 在 ,小 说 和 玄幻 簇 
有 了 父子 关系 ， 如 图 9-7 所 示 ， 因 此 称 为 层次 聚 类 (hierarchical clustering )。 


图 9-7 ERR: 一 个 较 大 的 徐 和 两 个 较 小 的 簇 以 树 型 结构 组 织 在 一 起 ， 
构成 一 种 层次 化 结构 。 回忆 第 7 章 中 的 例子 一 一 我 们 简单 地 依据 相似 
度 将 书籍 堆 释 到 一 起 时 ， 便 是 完成 了 一 个 粗略 的 层次 聚 类 
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类 似 地 , 我 们 可 以 持续 地 合并 簇 ,， 不 断 得 到 更 大 的 徐 。 当 进行 到 某 种 程度 时 , 簇 会 变 得 过 于 庞 
大 和 宽泛 ,可 能 已 经 不 再 是 有 意义 的 分 类 。 即 便 如 此 , 这 仍 是 一 个 十 分 有 用 的 聚 类 方法 : 合并 小 的 
复 ， 直 到 得 到 满意 的 结果 。 在 给 定数 据 集 上 发 掘 这 种 系统 性 层次 结构 的 方法 称 为 层次 聚 类 算法 。 

4. 概率 聚 类 

一 个 概率 模型 通常 是 一 个 n 维 平面 内 一 组 点 的 分 布 或 形状 特征 。 有 很 多 种 适合 不 同 数 据 模式 
的 概率 模型 ,概率 聚 类 算法 设法 为 数据 集 拟 合 出 一 个 概率 模型 ,通过 调整 模型 参数 来 适应 数据 集 。 
因为 少 有 完全 准确 的 拟 合 , 所 以 这 些 算法 通常 给 出 一 个 百分比 或 概率 值 来 表示 概率 模型 对 簇 的 拟 
合 程 度 。 

为 了 解释 如 何 产生 这 种 拟 合 ， 我 们 看 一 下 图 9-8 中 那个 二 维 的 例子 。 假 设 我 们 已 知 平面 上 的 
点 分 布 在 若干 个 椭圆 形 区 域 中 , 但 我 们 不 知道 这 些 区 域 的 中 心 、 半 径 和 轴线 。 我 们 可 以 选择 一 个 
椭圆 形 模型 并 试图 将 其 拟 合 到 数据 上 ; 并 对 每 一 个 椭圆 区 域 进行 平移 、 拉 伸 或 收缩 ， 以 得 到 最 住 


拟 合 结果 。 这 称 为 基于 模型 的 聚 类 。 


图 9-8 ”概率 聚 类 的 简化 图 示 。 左 图 是 初始 点 集 。 右 图 第 一 组 点 与 一 个 细 长 
的 椭圆 模型 相 匹 配 ， 而 第 二 个 则 更 为 对 称 


此 类 方法 的 一 个 典型 例子 就 是 狄 利克 雷 聚 类 算法 , 它 根 据 用 户 提 供 的 一 个 模型 做 拟 合 。 我 们 
将 在 9.4 节 看 到 这 个 聚 类 算法 的 实例 。 在 这 之 前 ， 你 需要 了 解 我 们 是 如 何 根据 不 同 聚 类 算法 的 策 
略 对 其 分 组 的 。 


9.2.2 ”不同 的 聚 类 方法 


不 同 聚 类 算法 使 用 不 同 的 策略 。 我 们 可 以 将 其 大 致 分 为 如 下 几 类 : 

口 确定 的 中 心 个 数 ; 

口 自 底 向 上 的 方法 ; 

口 自 顶 向 下 的 方法 。 

还 有 许多 其 他 的 聚 类 算法 ,具有 独特 的 聚 类 策略 ， 但 你 可 能 永远 不 会 在 Mahout 中 遇 到 它们 ， 

因为 它们 目前 在 大 数据 集 上 不 具有 可 扩展 性 。 这 里 ， 我 们 仅 探讨 上 述 三 类 算法 。 
1. 确定 的 中 心 个 数 
这 些 的 聚 类 方法 预先 确定 了 簇 的 个 数 。 簇 的 数量 通常 用 字母 表示 ， 这 起 源 于 此 类 方法 中 最 
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著名 的 k-means 算法 。 基 本 思想 是 从 k 个 簇 中 心 开始 ， 并 不 断 对 其 进行 修正 ， 以 更 好 地 适应 数据 。 
一 旦 中 心 在 数据 上 收 僵 数据 集 里 的 点 就 被 分 配给 距 其 最 近 的 中 心 。 

模糊 k-means 算法 是 男 一 个 需要 确定 簇 个 数 的 例子 。 它 不 像 k-means 那 样 执 行 排 他 性 聚 类 ， 模 
糊 k-means 执 行 的 是 可 重 和 至 聚 类 。 

2. 自 底 向 上 的 方法 : 通过 组 合 ， 将 点 合并 为 簇 

当 你 有 一 个 n 维 点 集 时 ， 可 以 做 两 件 事 : 假设 所 有 的 点 都 属于 同一 个 徐 ， 并 不 断 地 将 簇 分 解 
为 更 小 的 簇 ; 或 者 假设 每 个 点 自己 就 是 一 个 复 , 并 迭代 地 合并 它们 。 前 者 是 一 种 自 顶 向 下 的 方法 ， 
后 者 则 是 一 种 自 底 向 上 的 方法 。 

自 底 向 上 的 聚 类 算法 工作 方式 如 下 : 算法 从 一 个 n 维 空间 内 的 点 集 开始 ,寻找 最 接近 的 点 对 ， 
并 将 它们 合并 为 一 个 艇 ， 如 图 9-9 所 示 。 这 一 合并 仅 在 二 者 距离 小 于 特定 阅 值 时 执行 。 否 则 ， 不 
对 这 些 点 做 任何 操作 。 这 个 根据 距离 合并 簇 的 过 程 会 不 断 重复 ， 直 到 没有 可 合并 的 簇 为 I 上 。 


初始 数据 点 BRIER ZA RR 
-E | +H 
y A 
a @ A 
国 © A 
A 
(0, 0) x Ah (0, 0) x Ah 


图 9-9 自 底 向 上 的 聚 类 : 在 每 一 轮 迭代 之 后 ， 相 互 靠近 的 簇 会 被 合并 而 产生 越 来 越 大 
的 徐 ， 直 到 在 给 定 的 距离 测度 下 没有 可 以 合并 的 簇 为 止 


3. 自 顶 向 下 的 方法 : HAAR 
在 自 项 向 下 的 方法 中 , 你 需要 先 将 所 有 点 都 赋 给 同一 个 大 的 簇 。 然后 你 需要 寻找 最 好 的 拆 分 
方式 来 将 这 个 大 的 簇 一 分 为 二 ， 如 图 9-10 所 示 。 基 于 给 定 距 离 测 度 标准 ， 反 复 划 分 这 些 徐 ， 直 到 
你 得 到 有 意义 的 簇 为 止 。 
初始 禾 第 一 轮 先 代 之 后 形成 的 得 


(0, 0) x ih (0, 0) x 轴 
图 9-10” 自 项 向 下 的 聚 类 : 在 每 一 轮 和 迭代 中 ， 寻 找 最 优 分 割 将 篮 一 分 为 二 ， 直 至 得 到 理想 的 聚 类 结果 
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虽然 看 起 来 很 简单 ， 但 要 找到 一 个 n 维 数据 点 集合 的 最 佳 划 分 并 不 容易 。 此 外 ， 大 部 分 此 类 
算法 都 不 能 被 直 简 化 为 MapReduce 的 形式 ， 因 此 目前 Mahout 中 并 没有 包含 这 些 算法 。 

一 个 自 顶 向 下 方法 的 例子 是 谱 聚 类 (spectral clustering )。 在 谱 聚 类 中 ， 我们 寻找 一 条 分 界线 
或 平面 将 数据 划分 为 两 个 集合 ， 使 得 两 个 集合 的 边界 尽 可 能 大 。 

4. 自 顶 向 下 和 自 底 向 上 方法 的 优 缺 点 

自 项 向 下 和 自 底 向 上 方法 的 诱 人 之 处 在 于 它们 不 需要 用 户 输 入 簇 的 数目 。 这 意味 着 对 于 数据 
点 分 布 未 知 的 数据 集 , 这 两 类 算法 都 能 仅仅 基于 相似 性 度量 给 出 聚 类 结果 。 这 在 很 多 应 用 中 都 是 
行 之 有 效 的 。 

然而 ， 这 些 方法 仍然 处 在 研究 当中 ， 而 且 它 们 无 法 以 MapReduce 作 业 的 方式 运行 。Mahonut 
昌 然 没有 实现 这 些 方法 , 但 提供 了 其 他 一 些 不 需要 指定 簇 数目 的 算法 ,它们 能 够 以 MapReduce 作 
业 的 方式 运行 。 

虽然 没有 支持 MapReduce 的 层次 聚 类 算法 ， 但 我 们 可 以 通过 巧妙 使 用 k-means、 模 糊 k-means 
和 狄 利克 雷 聚 类 来 对 其 进行 模拟 。 要 得 到 层次 结构 ， 可 以 从 较 小 的 簇 个 数 (k) 开始 ， 并 在 反复 
聚 类 的 过 程 中 不 断 增 大 K 值 。 另 外 , 你 也 可 以 从 大 量 中 心 开 始 , 然后 在 聚 类 的 过 程 中 减 小 k 值 。 这 
样 ， 我 们 充分 利用 Mahout 的 可 扩展 性 ， 模 拟 了 层次 聚 类 的 行为 。 

下 一 节 将 详细 讲解 模糊 k-means 算法 。 我 们 用 它 来 改善 新 闻 网 站 AlIMyNews.com 的 相关 文章 
RRA 


9.3 ”模糊 k-means 聚 类 


顾名思义 , 模糊 k-means 聚 类 算法 是 k-means 聚 类 的 模糊 形式 。 与 k-means 排 他 性 聚 类 不 同 , 模 
糊 k-means 尝试 从 数据 集中 生成 有 重 炙 的 艇 。 在 人 研究 领域 ,这 也 叫做 模糊 c-means 算法 。 你 可 以 把 
它 看 成 k-means 的 扩展 。 

k-means 致力 于 寻找 人 硬 艇 (一 个 点 只 属于 一 个 艇 ), 但 是 模糊 k-means 致力 于 寻找 软 簇 。 在 一 
个 软 聚 类 算法 中 ， 任 何 点 都 能 属于 不 止 一 个 艇 ,而 且 该 点 到 这 些 艇 之 间 都 有 一 定 大 小 的 吸引 度 。 
这 种 吸引 度 与 该 点 到 这 个 簇 中 心 的 距离 成 比例 。 同 k-means 一 样 ， 模 糊 k-means 也 适用 于 定义 了 距 
离 测 度 的 n 维 向 量 空间 。 


9.3.1 运行 模糊 k-means 聚 类 


模糊 k-means 算法 可 通过 FuzzykMeansClusterer 和 FuzzyKMeansDriver 两 个 类 来 使 用 。 
前 者 是 一 个 in-memory 的 实现 ， 后 者 则 使 用 了 MapReduce。 

我 们 来 看 一 个 例子 。 仍 然 使 用 前 面 的 随机 点 发 生 器 来 生成 一 些 二 维 平面 内 分 散 的 点 。 代 码 清 
单 9-6 用 Fuz zyKMeansCluster 展 示 了 in-memory 形 式 的 实现 ， 所 用 参数 如 下 : 

O 输入 vector 数 据 为 List<Vector> 格 式 ; 

口 DistanceMeasure 是 EuclideanDistanceMeasure; 


口 Wri Bd (0.01 ; 
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口 FRET BUN ; 
O 模糊 参数 〈 该 参数 的 详细 解释 见 9.3.2 节 ) m 为 3。 


代码 清单 9-6 in-memory 形 式 的 模糊 k-means 聚 类 示例 


public static void FuzzyKMeansExample() { 
List<Vector> sampleData = new ArrayList<Vector>(); 


,| 生成 3 个 点 集 


generateSamples(sampleData, 400, 1, 1, 3); 
generateSamples(sampleData, 300, 1, 0, 0.5); 
generateSamples(sampleData, 300, 0, 2, 0.1); 


int k = 33 

List<Vector> randomPoints 
= RandomPointsUtil.chooseRandomPoints(sampleData, k); 
List<SoftCluster> clusters = new ArrayList<SoftCluster>(); 


int clusterId = 0; 


for (Vector v : randomPoints) { 
clusters.add(new SoftCluster(v, clusterId++, 
new EuclideanDistanceMeasure())); 
} 


List<List<SoftCluster>> finalClusters 
= FuzzyKMeansClusterer.clusterPoints(sampleData, 
clusters, new EuclideanDistanceMeasure(), 
OOl 3; 10)2 
for(SoftCluster cluster : finalClusters.get ( “| 运行 FuzzyKMeansClusterer 
finalClusters.size() - 1)) { 
System.out.println("Fuzzy Cluster id: " 
+ cluster.getId() 
+ " center: " + cluster.getCenter().asFormatString()); jE ASE BY EB 


} 

Mahout 的 mahout-examples 模 块 中 有 一 个 DisplayFuzzyKMeans 类 ， 它 是 一 个 很 好 的 工 
R, 可 以 在 二 维 空间 中 将 该 算法 可 视 化 。DisplayFuzzyKMeans 是 一 个 Java Swing 应 用 程序 ， 它 
产生 图 9-11 所 示 的 输出 。 


图 9-11 模糊 k-means 聚 类 : 这 些 簇 看 上 去 是 互相 重 全 的， 重 羡 程度 由 模糊 因子 决定 
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模糊 k-means 的 MapReduce 实 现 

Mahout 中 ， 模 糊 k-means 的 MapReduce 实 现 与 k-means 类 似 。 下 面 是 一 些 主要 参数 。 

O Vector 格 式 的 输入 数据 集 。 

O 用 来 生成 个 初始 簇 的 RandomSeedGenerator。 

口 距离 测度 : 这 里 使 用 squaredEuclideanDistanceMeasure。 

口 FRA Wad (EiconvergenceThreshold, 例如 -ca 1.0， 因 为 我 们 准备 用 距离 的 平 
方 值 。 

口 maxIterations 值 ; 我 们 准备 用 默认 值 -x 10。 

口 归 一 化 系数 ， 或 称 模糊 因子 ， 该 值 大 于 -m 1.0; 我 们 会 在 9.3.2 节 详细 描述 该 参数 。 

可 以 使 用 Mahout 的 启动 器 运行 Etkmeans， 从 而 在 输入 数据 上 做 模糊 k-means 聚 类 : 


$ bin/mahout fkmeans \ 

-i reuters-vectors/tfidf-vectors/ -c reuters-fkmeans-centroids \ 

-o reuters-fkmeans-clusters -cd 1.0 -k 21 -m 2 -ow -x 10\ 

-dm org.apache.mahout.common. distance. SquaredEuclideanDistanceMeasure 


与 k-means 一 样 ， 如 果 设 定 了 簇 个 数 ( -k ) 标志 ，FuzzyKMeansDriver 会 自动 运行 Random- 
SeedGenerator。 生 成 了 随机 中 心 之 后 ,模糊 k-means 聚 类 会 用 它们 作为 个 初始 中 心 。 该 算 
法 在 输入 数据 集 上 执行 多 次 迭代 ， 直 到 中 心 收 僵 ， 每 轮 迭 代 都 会 在 cluster- 文 件 夹 中 创建 新 的 
输出 文件 。 最 后 ， 它 运行 另 一 个 作业 , 依据 距离 参数 和 模糊 参数 ( -m ), 算出 每 一 个 点 属于 各 
A ike ER 

在 详细 讨论 模糊 参数 之 前 , 我们 最 好 先 用 clusterpumper 工 具 看 看 各 个 艇 。ClusterDumper 
展示 了 每 个 簇 中 心 的 前 几 个 词 。 为 了 获得 点 到 簇 的 映射 关系 ， 你 需要 读 取 clusteredPoints/ 文件 夹 
下 的 sequenceFile。 这 个 序列 文件 中 的 每 个 条 目 都 有 一 个 键 , 它 是 向 量 的 标识 符 ; 还 包括 一 个 
E, 这 个 值 是 一 个 簇 中 心 的 列表 ,每 个 簇 中 心 还 对 应 了 一 个 数字 ,这 个 数字 表示 这 个 点 符合 这 个 
中 心 的 程度 。 


9.3.2 ”多 模糊 会 过 度 吗 


模糊 k-means 有 一 个 参数 m, 叫做 模糊 因子 。 像 k-means 一 样 , 模糊 k-means 循环 地 处 理 数据 集 ， 
但 不 是 把 向 量 分 配 到 最 近 的 中 心 ， 而 是 计算 每 个 点 到 每 个 簇 的 关联 程度 (degree of association )。 
假设 有 一 个 向 量 V， 到 个 簇 中 心 的 距离 分 别 为 qi, doy, dt。 向 量 (V ) 到 第 一 个 簇 (Ci) 的 


关联 度 (u) 计算 如 下 : 
T 
=} doj 一 上 上 posas] =L 
d, d, d, 


类 似 的 ， 把 分 母 表达 式 中 的 分 子 q1 蔡 换 为 4,，4; 等 ， 可 以 计算 出 该 向 量 与 其 他 簇 的 关联 度 。 
从 表达 式 中 可 以 很 明显 的 看 出 m 应 该 大 于 1， 否 则 分 母 就 会 是 9， 导 致 出 错 。 
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如 果 你 把 m 设 为 2， 则 对 于 每 个 点 来 说 ， 所 有 关联 度 的 和 为 1。 从 男 一 个 角度 来 看 ， 如 果 m 无 
限 接 近 1， 比 如 1.000 001， 越 接近 该 向 量 的 簇 中 心 ， 就 越 会 得 到 更 高 的 权重 。 如 果 m 趋 近 于 1， 模 
糊 k-means 算 法 就 很 接近 k-means 算法 了 。 如 果 m 增 大 ， 会 使 得 算法 的 模糊 度 增 大 ， 因 而 产生 更 多 
He, 

模糊 k-means 算法 比 标准 k-means 算法 收敛 得 更 好 、 更 快 。 


93.3 ”案例 学 习 : 用 模糊 k-means 对 新 闻 进行 聚 类 


如 果 人 允许 簇 之 间 有 部 分 重合 , 那么 相关 文章 的 功能 显然 会 更 丰富 。 重 炙 的 分 值 有 助 于 我 们 获 
得 相关 文章 和 簇 的 关联 性 ， 进 而 对 它们 进行 排序 。 下 面 , 我 们 修改 9.1.4 节 中 的 学 习 示 例 ， 使 用 模 
糊 k-means 算法 ， 并 查看 模糊 簇 的 成 员 信 息 。 


代码 清单 9-7 基于 模糊 k-means 算法 的 新 闻 聚 类 


public class NewsFuzzyKMeansClustering { 
public static void main(String args[]) throws Exception { 


String vectorsFolder = outputDir + "/tfidf-vectors"; 
String canopyCentroids = outputDir + "/canopy-centroids"; 
String clusterOutput = outputDir + "/clusters/"; 


CanopyDriver.run(conf, new Path(vectorsFolder), new Path/( | 运行 canopy 
canopyCentroids), new ManhattanDistanceMeasure(), 3000.0, 生成 作业 
2000.0, false, false); 
FuzzyKMeansDriver.run(conf, new Path(vectorsFolder), new Path( 
canopyCentroids, "clusters-0"), new Path(clusterOutput), 
new TanimotoDistanceMeasure(), 0.01, 20, 2.0f, true, true, 0.0, 
false) ; 
| 运行 模糊 k-means 
SequenceFile.Reader reader = new SequenceFile.Reader(fs, 聚 类 
new Path(clusterOutput + Cluster.CLUSTERED_POINTS_DIR 
+ "/part-m-00000"), conf); 
IntWritable key = new IntWritable(); 从 输出 中 读 
WeightedVectorWritable value = new WeightedVectorwritable(); 取 映 射 关 系 
while (reader.next (key, value)) { 
System.out.println("Cluster: " + key.toString() 
+" "+ value.getVector().asFormatString()); 
// 编写 代码 以 保存 旋 映 射 到 数据 库 
FT ED SAE 


reader.close(); 
} 
} 


模糊 k-means 算 法 给 我 们 提供 了 一 种 改善 相关 文章 代码 的 途径 。 现 在 我 们 可 以 知道 一 个 点 在 
多 大 程度 上 与 一 个 篮 相 关 。 有 了 这 个 信息 , 我 们 就 能 找到 最 相关 的 艇 ,并 且 根 据 相关 程度 确定 相 
关 文 章 的 带 权 分 值 。 我 们 用 这 种 方式 避免 了 排他 性 聚 类 过 于 严格 的 限制 , 并 且 可 以 为 处 于 簇 边缘 
的 文档 识别 出 更 好 的 相关 文章 。 
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94 基于 模型 的 聚 类 


在 本 章 中 ， 聚 类 算法 的 复杂 性 逐渐 提高 。 前 面 我 们 从 kmeans 和 人 手 了 解 了 聚 类 算法 。 接 着 讨论 了 
模糊 kmeans 产 生 的 部 分 从 属 关系 。 我 们 还 介绍 了 如 何 通过 中 心 点 生成 算法 来 优化 聚 类 , 如 canopy 聚 类 。 

关于 这 些 聚 类 算法 , 我 们 还 想 知 道 些 什么 呢 ? 为 了 更 好 地 认识 数据 内 在 的 组 织 结构 , 我 们 需 
要 一 个 与 前 面 完全 不 同 的 方法 一 一 基于 模型 的 聚 类 。 

在 我 们 介绍 基于 模型 的 聚 类 算法 之 前 , 我 们 要 先 了 解 一 下 k-means 和 其 他 相关 算法 存在 的 问题 。 
这 一 节 我 们 要 使 用 狄 利克 雷 过 程 聚 类 (Dirichlet process clustering ) 来 解决 这 些 问 题 。 但 是 ， 为 了 理 
解 它 , 你 首先 要 知道 它 解决 的 是 什么 问题 , 我 们 会 把 它 和 其 他 你 之 前 看 到 的 算法 做 一 些 比较 。 下 面 
我 们 就 看 看 什么 是 k-means 算 法 所 不 能 做 的 ， 然 后 了 解 狄 利克 雷 过 程 聚 类 如 何 解决 这 个 问题 。 


9.4.1 k-means 的 不 足 


假定 你 要 把 一 个 数据 集聚 类 成 个 徐 。 现 在 你 已 经 知道 如 何 运 行 k-means 并 快速 得 到 这 些 簇 。 
因为 k-mean 可 以 基于 线性 距离 轻松 地 划分 徐 ， 它 的 性 能 一 般 都 不 错 。 

如 果 你 知道 这 些 簇 都 满足 正 态 分 布 , 并 且 相互 混合 与 重 至 在 一 起 , 该 怎么 办 呢 ? 这 样 的 话 你 
最 好 是 使 用 模糊 k-means 聚 类 。 

如 果 各 个 簇 不 是 正 态 分 布 呢 ”如 果 这 些 簇 呈 卵 形 分 布 呢 ?” 无 论 k-means 还 是 模糊 k-means 都 
无 法 利用 这 个 信息 来 改进 聚 类 过 程 。 在 我 们 探讨 怎么 解决 这 个 问题 之 前 ， 先 来 看 一 个 例子 , 在 这 
个 例子 中 k-means 聚 类 无 法 描述 数据 的 简单 分 布 。 

1. 非 对 称 正 态 分 布 

你 将 在 一 个 按 非 对 称 正 态 分 布 生成 的 点 集 上 运行 k-means 聚 类 。 这 意味 着 数据 点 发 生 器 产生 的 簇 
在 不 同方 向 上 有 着 不 同 的 方差 ， 不 像 之 前 那样 点 都 集中 在 中 心 附近 的 圆 形 区 域内 ， 而 是 会 形成 一 个 
以 这 个 点 为 中 心 的 椭圆 形 区 域 。 下 面 , 我 们 将 在 这 些 数据 上 以 in-memory 的 形式 运行 k-means 的 实现 。 

图 9-12 显 示 了 椭圆 形 分 布 (或 称 非 对 称 分 布 ) 的 数据 点 ， 以 及 由 k-means 产生 的 各 个 徐 。 很 
明显 ，k-means 并 不 能 挖掘 出 这 些 点 的 真实 分 布 情况 。 


图 9-12 ”在 非 对 称 正 态 分 布 的 点 集 上 运行 k-means 聚 类 。 这 些 点 分 布 在 一 个 椭圆 区 域 而 
不 是 一 个 圆 形 区 域 。k-means 没 能 给 出 理想 的 结果 
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k-means 的 另 一 个 问题 是 你 需要 估计 k， 即 中 心 个 数 ， 而 这 个 参数 通常 都 会 被 估计 得 过 高 。 找 
到 最 优 的 K 值 并 不 容易 ， 除 非 你 对 数据 有 一 个 很 明确 的 先 验 知识 ， 但 这 种 情况 很 少见 。 即 使 是 做 
canopy 生 成 ， 你 也 需要 在 距离 测度 方面 进行 调 优 ， 使 得 算法 可 以 改善 对 k 值 的 估计 -。 

要 是 有 一 种 更 好 的 方式 来 确定 簇 个 数 ， 会 怎么 样 呢 ? 这 就 是 基于 模型 的 聚 类 方法 的 用 武之 地 。 

2. 对 真实 数据 进行 聚 类 所 存在 的 问题 

假设 我 们 想 基 于 一 群 人 对 电影 的 喜好 来 对 他 们 进行 聚 类 ,以 找 出 有 共同 爱好 的 人 。 我 们 可 以 
统计 电影 的 风格 ， 以 此 来 估计 这 群 人 中 的 簇 个 数 。 

我 们 找到 的 簇 可 能 有 : 喜欢 动作 片 的 人 、 喜 欢 浪漫 电影 的 人 、 喜 欢喜 剧 的 人 等 。 但 这 并 不 
理想 ， 因 为 可 能 会 有 很 多 例外 情况 。 例 如 ， 有 一 组 人 只 喜 欢 犯罪 片 ， 而 不 喜欢 其 他 动作 片 。 他 
们 就 在 动作 片 簇 中 形成 了 一 个 子 簇 。 在 簇 的 混合 如 此 复杂 的 情况 下 ,我 们 无 法 得 到 这 个 小 簇 的 
信息 ， 因 为 它们 通常 都 淹没 在 了 大 的 簇 中 。 唯 一 的 解决 办 法 是 预先 知道 人 们 对 电影 喜好 的 内 在 
层次 结构 。 

如 果 我 们 预先 知道 这 个 情况 , 就 可 以 通过 层次 聚 类 方法 来 得 到 更 好 的 聚 类 效果 。 但 是 这 类 方 
法 不 能 涵盖 有 重 委 的 情况 。 我们 现在 看 到 的 所 有 至 类 算法 都 不 能 同时 处 理 既 有 重 倒 、 又 有 层次 结 
构 的 情况 。 那 么 我 们 应 该 怎么 处 理 这 类 问题 呢 ? 

这 是 另 一 个 可 以 通过 基于 模型 的 聚 类 方法 解决 的 问题 。 


94.2 ” 狄 利克 雷 聚 类 


Mahout 中 有 一 个 基于 模型 的 聚 类 算法 : 狄 利克 雷 聚 类 ( Dirichlet clustering )。 狄 利克 雷 
(Dirichlet ) 这 个 名 字 指 代 一 类 概率 分 布 ， 它 是 德国 数学 家 Johann Peter Gustav Lejeune Dirichlet 定 
义 的 。 狄 利克 雷 聚 类 算法 是 一 种 基于 狄 利克 雷 分 布 的 混合 建 模 方法 。 

如 果 对 狄 利克 雷 分 布 没 有 一 个 深入 了 解 的 话 , 这 个 过 程 听 起 来 很 复杂 , 但 它 的 思想 其 实 很 简 
单 。 假设 你 的 数据 点 集中 在 一 个 类 似 圆 形 的 区 域内 ,它们 在 其 中 呈 均 匀 分 布 , 你 也 有 一 个 描述 该 
分 布 的 模型 。 你 可 以 读 和 人 数据 ， 并 计算 该 模型 与 数据 相 吻 合 程度 ， 从 而 验证 你 的 数据 是 否 符合 这 
种 模型 。 

该 方法 可 以 在 一 定 程度 上 自信 地 告诉 你 说 这 些 点 聚集 的 区 域 看 起 来 像 是 圆 形 的 分 布 , 也 可 以 
说 这 个 区 域 看 起 来 不 像 是 三 角形 分 布 〈 另 一 个 模型 )， 因 为 这 些 数据 与 三 角形 的 吻合 度 太 低 。 如 
果 你 找到 一 种 拟 合 方 式 ， 也 就 知道 了 数据 的 结构 。 图 9-13 阐 明了 这 一 观点 。( 注意 这 里 用 到 的 圆 
和 三 角形 仅仅 是 为 了 算法 的 可 视 化 。 不 要 把 它们 误 当 做 真实 的 概率 模型 。) 

狄 利克 雷 聚 类 算法 在 Mahout 中 被 实现 为 贝 叶 斯 聚 类 算法 。 这 就 意味 着 , 这 个 算法 不 仅仅 是 给 
出 数据 的 一 个 解释 ， 而 是 给 出 很 多 解释 。 就 好 比 说 ,“ 区 域 A 像 一 个 圆 ， 区 域 B 像 一 个 三 角形 ， 区 
域 A 和 B 合 起 来 像 一 个 多 边 形 ” 等 。 实 际 上 ， 每 个 区 域 都 是 一 个 统计 分 布 ， 就 像 你 在 本 章 前 面 看 
到 的 正 态 分 布 一 样 。 

我 们 接 下 来 会 见 到 各 种 各 样 的 模型 分 布 , 但 对 它们 的 深入 讲解 超出 了 本 书 的 范畴 。 我 们 还 是 
先 看 看 Mahout 中 的 狄 利克 雷 聚 类 算法 是 怎么 工作 的 吧 。 
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选择 了 错误 的 模型 选择 了 正确 的 模型 


= = 
a ` () 


(0, 0) x fih (0, 0) x 轴 


图 9-13 ” 狄 利克 雷 聚 类 : 这 些 模 型 尽 最 大 可 能 去 拟 合 给 定 的 数据 集 。 右 边 的 模型 要 
更 好 一 些 ， 它 显示 出 了 在 这 个 模型 下 数据 集中 的 簇 个 数 


理解 狄 利克 雷 聚 类 算法 

狄 利克 雷 聚 类 的 初始 状态 是 一 个 数据 点 的 集合 以 及 一 个 ModelDpistribution。 可 以 把 
ModelDistribution 看 成 是 一 个 生成 不 同 模型 的 类 。 你 会 创建 一 个 空 的 模型 ， 并 尝试 将 点 分 配 
Se. Wea, 模型 粗略 地 上 下 调整 其 参数 , 试 着 去 拟 合 数据 。 当 所 有 点 上 的 拟 合 都 完成 之 后 , 它 
会 基于 所 有 数据 点 以 及 点 属于 该 模型 的 局 部 概率 来 精确 地 重新 估计 出 模型 参数 。 

在 每 个 步骤 末尾 ， 你 将 得 到 一 定数 量 的 样本 ， 其 中 包括 概率 、 模 型 、 点 到 模型 的 分 配 关系 。 
这 些 样本 可 以 被 视 为 簇 ， 它 们 提供 了 有 关 模 型 及 其 参数 的 信息 ， 例 如 它们 的 形状 和 大 小 。 另 外 ， 
通过 检查 样本 中 被 分 配 有 数据 点 的 模型 个 数 ， 你 可 以 知道 数据 支持 多 少 个 模型 《得 )。 还 有 ， 检 
查 两 个 点 分 配给 同一 个 模型 的 概率 , 你 可 以 知道 它们 用 同一 模型 表示 时 的 相似 度 。 这 种 软 从 属 信 
息 是 使 用 模型 聚 类 的 一 个 副产品 。 狄 利克 雷 聚 类 能 够 捕获 到 数据 点 属于 多 个 模型 的 局 部 概率 。 


943 ”基于 模型 的 聚 类 示例 


基于 狄 利克 雷 过 程 聚 类 的 in-memory 版 本 在 Dirichletclusterer 类 中 实现 ， 而 MapReduce 
作业 的 版 本 在 DirichletDriver 类 中 实现 。 我 们 将 使 用 generatesamples 了 因数 (之 前 在 9.1.2 
节 用 过 ) 生成 随机 向 量 。 

该 犹 利 克 雷 聚 类 实现 非常 通用 ,可 用 于 各 种 分 布 及 数据 类 型 。 不 过 ，Mahout 中 的 Model 实 现 
使 用 了 Vectorwritable 类 型 ， 所 以 在 我 们 的 聚 类 代码 中 把 它 作为 默认 类 型 。 

我 们 用 如 下 参数 运行 狄 利克 雷 聚 类 : 

O 输入 Vector 数 据 以 List<VectorWritable> 形 式 表示 ; 

Q 我 们 将 数据 拟 合 为 GaussianclusterDistribution 模 型 分 布 ; 

O 狄 利克 雷 分 布 的 alpha 值 为 1.0; 

O 初始 模型 数目 (numModels ) #£10; 

口 rhin 和 burn 间 隔 都 是 2。 
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数据 点 会 分 散 到 一 个 指定 中 心 的 周围 ， 类 似 于 正 态 分 布 ， 如 下 述 代码 清单 所 示 。 
代码 清单 9-8 对 服从 正 态 分 布 的 数据 进行 狄 利克 雷 聚 类 


List<VectorWritable> sampleData = new ArrayList<VectorWritable>(); 


generateSamples(sampleData, 400, 1, 1, 3); he 
generateSamples(sampleData, 300, 1, 0, 0.5); *) 生成 3 个 点 集 
generateSamples(sampleData, 300, 0, 2, 0.1); 


DirichletClusterer dc = 
new DirichletClusterer ( 
sampleData, 
new GaussianClusterDistribution ( 
new VectorWritable(new DenseVector(2))), 


1.0, 10, 2, 2); _| RAE RE 


List<Cluster[]> result = de.cluster(20); 

在 代码 清单 9-8 中 ， 我 们 按照 正 态 分 布 生成 了 一 些 样本 点 ， 并 尝试 使 用 正 态 (高 斯 ) 分 布 拟 
合 数据 。 算 法 的 参数 决定 了 收敛 的 速度 和 质量 。 

这 里 ，alpha 是 平滑 因子 。 值 越 大 模型 的 收敛 速度 越 慢 ,所 以 聚 类 会 有 多 次 迭代 , 并 且 可 能 在 
这 些 模型 上 拟 合 过 (模型 会 尝试 在 较 小 的 范围 内 拟 合 数据 分 布 , 即使 拟 合 了 较 大 范围 的 模型 正 是 
我 们 想 要 的 )。 较 小 的 alpha 值 会 使 得 聚 类 过 程 中 模型 的 合并 更 快 ， 这 样 就 会 导致 模型 从 拟 合 〔 将 
来 自 两 个 不 同 分 布 的 数据 点 拟 合 为 一 个 模型 )。 

Thin 和 burn 间 隔 用 于 降低 聚 类 中 内 存 的 使 用 率 。Buzrn 参 数 指定 要 做 多 少 次 迁 代 才 保存 第 一 
组 模型 。Thin 参 数 指定 每 次 保存 这 种 模型 配置 之 间 要 忽略 多 少 次 迭代 。 因 为 需要 多 次 迭代 才能 
WL, 初始 状态 没有 进一步 的 利用 价值 。 在 初始 化 阶段 ,模型 数量 比较 大 ,它们 并 不 生成 实际 数 
据 ， 所 以 我 们 可 以 忽略 它们 (通过 thin 和 burn ) 以 节省 内 存 。 

用 Displaypirichlet 聚 类 算法 得 到 的 最 终 状 态 如 图 9-14 所 示 。 这 个 类 放 在 Mahout 的 
examples 文 件 夹 中 ， 该 文件 夹 中 也 有 许多 其 他 的 模型 分 布 及 其 聚 类 算法 的 例子 。 


图 9-14 使 用 DisplayDirichlet 类 对 正 态 分 布 进行 狄 利克 雷 聚 类 ， 该 类 在 
Mahout 的 examples 文 件 夹 中 


这 里 的 聚 类 算法 和 9.2 节 的 k-means 聚 类 算法 不 同 。 狄 利克 雷 聚 类 可 以 做 一 些 k-means 做 不 了 的 
事情 ， 比 如 可 以 精确 定位 我 们 生成 的 3 个 艇 。 其 他 算法 只 能 找到 重 释 或 者 层次 化 的 簇 。 
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这 只 是 冰山 一 角 。 为 了 展示 基于 模型 的 聚 类 的 魔力 , 我 们 用 一 个 比 正 态 分 布 更 加 复杂 的 例子 
来 说 明 。 

1. 非 对 称 正 态 分 布 

当 数 据点 在 不 同 维度 的 标准 差 不 相 等 时 , 称 正 态 分 布 为 非 对 称 的 。 这 使 得 数据 呈 椭 圆 形 分 布 。 
当 你 在 这 个 9.4.1 节 的 数据 分 布 上 做 k-means 聚 类 时 ， 效 果 会 很 差 。 现 在 你 可 以 在 同样 的 数据 集 上 
用 GaussianclusterDistribution 完 成 狄 利克 雷 聚 类 ， 这 里 在 x 和 )? 轴 上 使 用 的 参数 不 同 。 

你 可 以 使 用 非 对 称 征 态 分 布 模型 执行 狄 利克 雷 聚 类 , 这 里 二 维 平面 内 x 和 y 方 向 上 的 标准 差 不 
同 。 聚 类 结果 见 图 9-15。 


图 9-15” 非 对 称 正 态 分 布 的 狄 利克 雷 聚 类 算法 ， 所 用 DisplayDirichlet 类 的 代码 在 Mahout 的 
examples 文 件 夹 下 。 粗 椭圆 表示 最 终 状 态 ， 细 线 表 示 之 前 的 迭代 过 程 


尽管 生成 的 簇 个 数 变 多 了 , 基于 模型 的 聚 类 方法 能 够 找到 非 对 称 的 模型 , 并 且 相 比 起 其 他 算 
法 能 够 更 好 地 在 数据 上 拟 合 模型 。 使 用 较 好 的 alpha 值 也 许可 以 让 结果 得 到 改善 。 

TE, REŽA MapReduce KAF] ERK, 

2. MapReduce 版 的 狄 利克 雷 聚 类 

就 像 Mahout 中 的 其 他 实现 一 样 ， 狄 利克 雷 聚 类 专注 于 处 理 海 量 数据 集 。 狄 利克 雷 聚 类 的 
MapReduce 版 本 是 在 DirichletDriver 类 中 实现 的 。 狄 利克 雷 作 业 可 以 通过 命令 行 方式 在 
Reuters 数 据 集 上 执行 。 

下 面 我 们 看 看 如 何 通过 MapReduce 作 业 完 成 狄 利克 雷 聚 类 : 

口 Reuters 数 据 集 为 Vector 形 式 ; 

口 默认 的 模型 分 布 类 ( -md ) AcGaussianClusterDistribution; 

口 在 这 个 作业 中 , 创建 的 所 有 向 量 的 Vector 类 的 默认 类 型 是 sequentialAccessSparse- 

Vector; 

口 该 分 布 的 alpha0 值 应 该 被 设 为 -a0 1.0; 

口 初始 簇 数 量 为 -k 60; 

口算 法 的 迭代 次 数 为 -x 10。 

在 这 个 数据 集 上 通过 Mahout 启 动 器 中 的 dirichlet 程 序 运行 该 算法 的 过 程 如 下 : 
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$ bin/mahout dirichlet \ 

-i reuters-vectors/tfidf-vectors \ 

-o reuters-dirichlet-clusters -k 60 -x 10 -a0 1.0 \ 

-md org.apache.mahout.clustering.dirichlet.models.GaussianClusterDistribution \ 
-mp org.apache.mahout.math.SequentialAccessSparseVector 


KAI ERRERA, ERSE Pin CPE BPO, IBS 
state-*。 你 可 以 用 seqenceFile 读 取 程序 读 取 它们 , 并 且 找 到 每 个 模型 的 中 心 点 和 标准 差 。 由 此 ， 
你 可 以 在 聚 类 的 最 后 阶段 将 向 量 分 配 到 各 个 簇 。 

当 已 知 数据 分 布 模型 时 ， 狄 利克 雷 聚 类 是 一 个 获得 高 质量 簇 的 有 力 方 式 。 在 Mahout 中 ， 这 个 
算法 是 一 个 可 定制 的 框架 , 很 容易 创建 并 测试 不 同 的 模型 。 随 着 模型 变 得 更 加 复杂 , 处理 海 量 数 据 
的 进程 会 减缓 , 所 以 , 在 这 种 情况 下 ,你 就 要 考虑 其 他 聚 类 算法 了 。 但 是 通过 观察 狄 利克 雷 聚 类 算 
法 的 输出 , 你 可 以 决定 我 们 应 该 选择 模糊 还 是 严格 、 重 全 还 是 层次 化 的 簇 ， 距离 测度 选 曼哈顿 还 是 
余弦 ， 收 敛 的 阀 值 是 多 少 。 狄 利克 雷 聚 类 既是 一 个 数据 分 析 工 具 ， 也 是 一 个 有 力 的 聚 类 工具 。 


9.5 用 LDA 进行 话题 建 模 


到 目前 为 止 , 我 们 一 直 把 文件 看 成 词 项 的 集合 , 并 给 每 个 词 项 赋予 一 定 的 权重 。 在 实际 生活 
中 ， 我 们 把 新 闻 文 章 或 者 其 他 文本 文件 看 成 一 系列 的 话题 集合 。 这 些 话题 本 质 上 是 非常 模糊 的 。 
少数 情况 下 ， 甚 至 是 有 歧义 的 。 通 常 ， 当 我 们 读 一 段 文字 时 ， 会 把 它 和 一 系列 话题 联系 在 一 起 。 
如 果 有 人 问 :“ 这 篇 新 闻 讲 的 是 什么 ” ”我 们 很 自然 地 会 说 “这 讲 的 是 美国 的 反 恺 战争 ”之 类 的 
话 ， 而 不 是 简单 地 把 我 们 在 文中 看 到 的 词 列 出 来 。 

考虑 一 个 话题 ， 如 狗 。 关 于 这 个 话题 有 很 多 文字 描述 ， 分 别 是 在 说 不 同 的 事情 。 在 这 些 文档 
中 最 常 出 现 的 词 也 许 是 dog ( 狗 )、woof (RIR ), puppy (小 狗 )、bark ( FAK). bow ( SHE). 
chase (追赶 )、loyal ( 忠诚 ) 以 及 friend ( 朋友 ) 等 。 有 一 些 词 ， 如 bow ( SHE) Mbark (HHR ) 
是 有 歧义 的 ， 因 为 它们 也 会 出 现在 其 他 话题 中 ， 如 号 (bow) 和 箭 (arrow )， 或 者 一 棵 树 的 树 皮 
(bark) 等 。 但 是 ,我 们 可 以 说 上 述 这 些 出 现在 “ 狗 ” 这 个 话题 的 词 中 有 些 词 出 现 的 概率 比 其 他 
词 要 大 。 类 似 地 ,一 个 有 关 “ 猫 ”的 话题 中 ,诸如 cat ( 猫 )、kitten ( 小 猫咪 )、meow (T ), purr 
( 猫 的 呼噜 声 ) 和 furball ( EBER ) 等 词 就 会 频繁 出 现 。 图 9-16 给 出 了 一 些 看 到 一 幅 有 关 狗 或 猫 的 
图 画 之 后 人 们 心中 会 想起 的 词 。 

loyal purr meow 


dog as 
$ 
woof wag * cat 
cuddle wy 
$ 


ed | \ fish 
S stay kitten A 


图 9-16 FRA Be Aa E H SY i] 
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如 果 要 我 们 在 特定 的 文档 集中 找 出 这 些 话题 的 话 , 直觉 上 肯定 会 用 聚 类 思想 。 我 们 要 调整 聚 
类 算法 的 代码 , 让 它 用 在 词语 向 量 而 不 是 之 前 用 的 文档 向 量 上 。 这 里 的 词语 向 量 是 指 每 个 词 对 应 
一 个 向 量 ， 其 特征 是 语料库 中 与 这 个 词 共 现 的 其 他 词 的 ID ， 权 重 则 是 它们 一 起 出 现 的 文档 数目 。 

一 旦 我 们 有 了 这 个 向 量 , 就 可 以 运行 聚 类 算法 了 , 找 出 词语 的 艇 ,并 将 其 称 为 话题 。 尽 管 这 
看 起 来 很 简单 ， 但 生成 词语 向 量 的 工作 量 相当 大 。 我 们 可 以 把 一 起 出 现 的 词语 归 类 为 一 个 话题 ， 
然后 计算 词语 在 每 个 话题 中 出 现 的 概率 。 

潜在 狄 利克 雷 分 析 (LDA ) 能 做 的 不 仅仅 是 聚 类 。 如 果 两 个 词 的 意思 或 者 形式 相同 , 但 是 它 
们 并 不 一 起 出 现 ， 聚 类 也 不 能 基于 其 他 的 实例 把 它们 关联 起 来 。 这 就 正 是 LDA 大 显 喘 手 的 地 方 。 
LDA 能 够 根据 词语 出 现 的 方式 来 判断 ， 指 出 哪些 有 相同 的 意思 , 或 者 被 用 在 相同 的 上 下 文中 。 这 
类 词语 集合 可 被 视 为 概念 或 者 话题 。 

现在 ， 我 们 扩展 一 下 这 个 问题 。 假 设 我 们 有 一 系列 观测 结果 (文档 以 及 文档 中 的 词 )。 我 们 
能 根据 特征 (话题 ) 找 出 隐藏 的 分 组 中? LDA 可 以 非常 高 效 地 对 特征 进行 分 组 或 找到 话题 。 


9.5.1 理解 LDA 


LDA 是 一 个 和 狄 利克 雷 聚 类 类 似 的 生成 式 模型 。 首 先 ， 从 一 个 已 知 的 模型 开始 ,然后 通过 调 
整 参数 , 在 数据 上 拟 合 模 型 。 LDA 假 设 整个 语料库 中 有 k 个 话题 , 并 且 每 个 文档 都 涉及 这 k 个 话题 。 
因此 ， 文 档 就 可 以 看 成 不 同 概率 的 话题 的 混合 体 。 


注意 机 器 学 习 算 法 分 成 两 类 ÆRA (generative ) 47 #4] 4] A, (discriminative )。 像 k-means 
和 层次 聚 类 这 类 算法 ,就 是 基于 距离 测度 ， 把 数据 划分 成 k 个 组 ， 这 种 方法 通常 叫做 判别 
式 方法 。 判 别 式 方法 的 一 个 例子 是 SVM 分 类 ， 你 将 在 本 书 第 三 部 分 学 习 。 在 狄 利克 雷 聚 
类 中 ， 模 型 会 对 数据 进行 拟 合 ， 仅 仅 通过 这 些 模 型 的 参数， 你 就 能 生成 拟 合 模型 用 的 数 
据 。 因 此 ， 这 个 叫做 生成 式 模型 。 


LDA 比 标准 聚 类 方法 更 加 强大 的 地 方 在 于 它 既 能 把 单词 聚 类 成 话题 , 也 能 把 文档 聚 成 多 个 话 
题 的 混合 体 。 假 设 有 一 篇 关于 奥运 会 的 文章 ， 包 括 “人 金牌 ”“ 奖 牌 ” “跑步 “冲刺 ”这 些 词 ; 另 
一 篇 文章 描述 了 亚运 会 的 百 米 冲刺 , 包括 “冠军 ”“ 人 金牌“ 冲刺” 这些 词 。LDA 可 以 推 新 出 一 个 
模型 , 其 中 第 一 篇 文章 与 两 个 话题 都 有 关 , 其 中 一 个 讨论 体育 运动 , 包括 “冠军 ”“ 人 金牌 ”“ 奖 牌 ” 
等 关键 词 ; 男 外 一 个 讨论 百 米 冲刺 ， 其 中 包括 像 “ 跑 ”和 “冲刺 ”这 类 关键 词 。LDA 能 得 出 每 个 
话题 产生 不 同文 档 的 可 能 性 。 这 些 话题 本 身 就 是 这 些 词 的 分 布 ， 所 以 “ 跑 ” 这 个 词 出 现在 “体育 
运动 ”这 个 话题 中 的 概率 比 出 现在 “ 百 米 冲刺 ”这 个 话题 中 的 概率 要 低 一 些 。 

LDA 算 法 和 狄 利克 雷 聚 类 工作 方式 类 似 。 它 首先 创建 一 个 空 的 主题 模型 , 在 mapper 阶 段 并 行 
读 取 文 档 ， 然 后 在 文档 中 为 每 个 单词 计算 每 个 主题 的 概率 。 然 后 ， 概 率 就 会 被 发 送 给 reducer， 
reducer 会 将 这 些 概 率 相 加 并 归 一 化 。 上 述 过 程 一 直 重 复 直到 模型 能 够 更 好 地 表达 这 些 文档 一 一 当 
概率 ( 取 对 数 ) 的 和 不 再 变化 为 止 。 变 化 程度 是 通过 收敛 阔 值 参数 设 定 的 ， 和 kmeans 聚 类 的 国 
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值 一 样 。LDA 评 估 模 型 和 数据 的 拟 合 程度 ， 而 不 是 测试 中 心 点 的 相对 变化 值 。 如 果 似 然 值 的 变化 
小 于 这 个 阔 值 ， 则 和 迭代 停止。 


9.5.2 ”对比 TF-IDF 与 LDA 


对 文档 进行 聚 类 时 ， 我 们 用 TF-IDF 单 词 权 重 来 找 出 一 个 文档 中 重要 的 单词 。TF-IDF 有 一 个 
缺陷 ， 它 不 能 识别 共同 出 现 的 单词 或 者 它们 之 间 的 关系 ， 如 Coca 和 Cola。 并且，TF-IDF 不 能 通过 
单词 的 出 现 和 分 布 找 出 这 些 单词 之 间 的 微妙 关系 。LDA 可 以 以 单词 频率 为 输入 , 找 出 它们 之 间 的 
关系 ， 所 以 算法 的 输入 应 该 是 词 频 向 量 ， 而 不 是 TF-IDF 向 量 。 


9.5.3 ”LDA 参数 调 优 


在 运行 Mahout 中 的 LDA 实 现 之 前 ， 你 需要 理解 LDA 中 影响 运行 时 间 和 质量 的 两 个 参数 。 

第 一 个 是 话题 数目 。 就 像 k-means 中 的 k 个 中 心 ， 你 需要 基于 现 有 数据 确定 话题 数目 。 如 果 话 
题 数 较 少 ， 就 会 得 到 更 宽泛 的 话题 ， 如 科学 、 运 动 、 政 治 , 这 些 宽泛 的 话题 会 吞并 其 子 话题 中 的 
单词 。 如 果 话 题 数目 较 多 ， 每 个 话题 就 会 更 为 专注 或 者 小 众 ， 如 量子 力学 和 反射 定律 。 

话题 数目 较 多 也 意味 着 算法 需要 更 长 时 间 评 估 所 有 话题 的 单词 分 布 。 这 会 严重 影响 性 能 。 根 
AM, 最 好 是 具体 问题 具体 分 析 。Mahout 的 LDA 是 MapReduce 作 业 的 形式 实现 的 , 所 以 它 能 运 
行 在 一 个 大 的 Hadoop 集 群 上 。 你 可 以 通过 添加 工作 节点 达到 加 速 的 效果 。 

第 二 个 参数 是 单词 的 个 数 ， 也 就 是 向 量 的 维 数 。 这 决定 了 LDA 的 mapper 中 所 用 矩阵 的 大 小 。 
Mapper 创 建 一 个 和 矩阵， 其 大 小 为 话题 个 数 乘 以 文档 长 度 (文档 中 的 单词 或 特征 的 数目 )。 

如 果 你 需要 加 速 LDA,， 除了 可 以 降低 话题 数目 外 , 还 可 以 让 特征 数目 最 小 化 , 但 是 如 果 你 需 
要 找到 所 有 话题 中 所 有 单词 的 概率 分 布 ,你 还 是 别 动 这 个 参数 了 。 如 果 你 只 对 语料库 中 的 某 些 关 
键 字 感 兴趣 ， 你 可 以 在 创建 向 量 的 过 程 中 剔除 高 频 词 汇 。 

你 可 以 在 基于 词典 的 向 量 模型 中 降低 maximum-document-frequency 比 例 参数 ( --maxDF- 
Percent )， 若 取 值 为 70， 则 会 把 在 70% 文 档 中 都 会 出 现 的 单词 剔 掉 。 


95.4 案例 学 习 : 寻找 新 闻 文 档 中 的 话题 


我 们 将 在 Reuters 数 据 集 上 运行 Mahout 中 的 LDA。 首 先 ， 我 们 运行 词典 向 量化 程序 ， 创 建 TF 
向 量 ， 然 后 把 它们 用 作 LDADriver 的 输入 。 删 除 高 频 词汇 以 加 速 计算 过 程 。 在 本 例 中 ， 我们 要 从 
Reuter 向 量 中 提取 10 个 话题 。 

LDADriver 信 口 函 数 需 要 以 下 参数 : 

O 包含 Vectors 的 输入 目录 ; 

口 每 轮 迭 代 之 后 写 信 LDA 状态 的 输出 目录 ; 

口 模型 的 话题 数目 ，-k 10; 

口 语料库 中 的 特征 数量 ，-v; 

口 话题 平滑 参数 ，-a (默认 值 为 50/ 话 题 数 ); 
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O 最 大 迭代 次 数 限制 ，-x 20。 

语料库 中 的 特征 数 -v ) 可 以 通过 统计 vectorizer 文 件 夹 下 词典 文件 中 的 条 目 数 得 到 。 我 们 可 
以 用 sequenceFileDumper 找 到 词典 条 目 数 ， 前面 第 8 章 有 介绍 。 我 们 可 以 在 命令 行 中 运行 LDA 
算法 : 


$ bin/mahout lda \ 

-i reuters-vectors/tf-vectors \ 
-o reuters-lda-sparse \ 

-k 10 -v 7000 -x 20 -ow 


LDA 会 迭代 20 次 , 或 者 在 收敛 时 就 停止 下 来 。 每 次 迭代 之 后 模型 的 状态 就 会 被 写 人 输出 目录 
中 以 state- 开 头 的 文件 夹 内 。 
Mahout 的 mahout-utils 模 块 有 一 个 读 取 LDA 输 出 的 工具 , 用 于 从 输出 状态 目录 中 读 取 话题 
和 单词 概率 。LDAPrintTopics 是 该 工具 的 主 入 口 函 数 。 你 可 以 查看 任何 一 轮 迭 代 的 输出 ， 以 下 
显示 每 个 话题 的 前 5 个 单词 : 


$ bin/mahout org.apache.mahout.clustering.lda.LDAPrintTopics \ 
-i reuters-lda-sparse/state-20/ \ 

-d reuters-vectors/dictionary.file-* \ 

-dt sequencefile -w 5 


表 9-1 列 出 了 这 个 例子 的 输出 。 注 意 10 个 话题 只 列 出 了 5 个 。 
表 9-1 在 Reuters 新 闻 数 据 上 进行 LDA 话 题 建 模 ， 各 话题 中 的 前 5 个 单词 


话题 0 话题 1 话题 2 话题 3 话题 4 
wheat south loans trading said 
7-apr-1987 said president exchange inc 
agriculture oil bank market its 
export production chairman dollar corp 
tonnes energy debt he company 


LDA 能 够 从 Reuters 数 据 集中 提取 出 多 种 话题 集合 。 但 是 , 仍然 会 出 现 一 些 没有 太 大 实际 意义 
的 词 ， 如 7-apr1987、said、he 等 。LDA 将 它们 与 集合 中 的 其 他 词语 同等 对 待 。 一 般 需 要 更 多 的 迭 
代 次 数 才能 找到 更 好 的 话题 模型 。 

想 去 掉 这 些 不 需要 的 词 并 不 容易 ， 因 为 他 们 出 现 的 频率 很 高 。 相 比 起 关键 词 来 说 ， 它们 属 
于 任何 一 个 话题 的 概率 都 要 更 高 。 如 果 我 们 检查 一 下 包含 这 些 话题 的 文档 , 会 发 现 这 是 显 而 易 
见 的。 但 即使 在 词典 向 量 中 去 掉 高 频 单 词 之 后 ， 像 said、he 之 类 的 词 也 是 不 会 消失 的 。LDA 能 
做 得 更 好 吗 ? 

上 面 的 例子 中 我 们 还 有 一 个 参数 未 修改 过 ， 即 话题 平滑 参数 ( -a )。 因 为 文本 数据 有 许多 噪 
E, 这 会 导致 LDA 的 估计 出 现 错误 。LDA 可 以 通过 增 大 平滑 值 来 避 开 这 个 问题 , 这 将 增加 那些 低 
频 关 键 词 的 权重 。 当 然 , 这 么 做 也 会 降低 高 频 词 的 影响 。 这 会 导致 LDA 需 要 更 多 次 的 迭代 才能 产 
生 有 意义 的 话题 模型 。 

默认 情况 下 ，LDA 设 置 平滑 参数 为 50/numropics。 在 我 们 的 例子 中 ， 它 是 5。 现 在 我 们 把 
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这 个 平滑 参数 设 为 20， 然 后 重新 运行 LDA。 和 迭代 结束 之 后 ， 用 LDAPrintTopics 类 来 看 输出 。 
输出 列 于 表 9-2 中 。 高 频 词 汇 的 影响 仍然 存在 ， 但 是 话题 内 容 变 得 更 有 条 理 了 。 


表 9-2 ”增加 平滑 参数 后 ，LDA 话 题 建 模 所 生成 话题 中 的 前 5 个 单词 


话题 0 话题 1 话题 2 话题 3 话题 4 
production year said stock Vs 
tonnes growth banks corp min 
price foreign have securities cts 
oil last analysts inc net 
department billion market Teuter loss 


9.5.5 ”话题 模型 的 应 用 


话题 模型 的 输出 文件 格式 是 “ 键 - 值 ”( IntPairwritable,Doublewritable )。 键 (key) 
是 一 对 整数 ， 第 一 个 是 主题 ID ， 第 二 个 是 特征 ID; 值 (value ) 是 单词 在 模型 中 出 现 的 似 然 值 。 

这 些 话题 模型 可 以 用 来 解决 很 多 实际 问题 。 我 们 可 以 将 他 们 用 作 簇 中 心 , 并 使 用 距离 测度 将 
文档 关联 到 最 近 的 中 心 , 也 可 以 为 它们 分 配 标签 ,并 将 它们 用 作 分 类 模型 ， 这 同样 需要 使 用 某 种 
距离 测度 。 

话题 集合 可 以 以 标签 云 (tag cloud) 的 形式 进行 可 视 化 ， 类 似 Digg 和 Delicious 提 供 的 功能 。 
话题 建 模 同样 可 以 用 于 将 话题 按时 间 轴 进行 可 视 化 。 我 们 可 以 以 月 或 者 年 为 周期 在 新 闻 文 章 上 建 
立 话题 模型 。 这 样 就 能 展示 出 话题 随时 间 的 发 展 趋势 。 


注意 一 个 有 趣 的 实验 是 在 时 间 轴 上 对 科学 研究 进行 话题 建 模 。 在 19 世 纪 90 年 代 年 左右 的 科学 
杂志 中 最 经 常 出 现 的 词 是 和 蒸汽 机 相关 的 ，20 世 纪 40 年 代 是 与 原子 研究 相关 的 ，20 世 纪 
90 年 代 则 是 与 聚合 物 和 半导体 器 件 相关 的 。David M. Blei 在 如 下 链接 中 给 出 了 这 个 实验 的 
解释 : http://www.cs.princeton.edu/~blei/topicmodeling.html. 


话题 模型 中 的 词 可 以 用 来 提高 搜索 的 覆盖 率 。 例 如 ,一 个 人 搜索 可 口 可 乐 , 可 口 可 乐 和 百事 
可 乐 会 同时 出 现在 查询 结果 中 。 

LDA 算 法 可 以 从 语料库 中 发 现 有 趣 的 簇 , 以 及 语料库 中 词语 之 间 的 关联 。 人 们 仍然 在 探索 如 
何 充 分 利用 这 些 信息 。Mahout 中 的 LDA 可 以 帮助 我 们 在 大 量 的 服务 器 上 分 析 数 以 百 万 计 的 文件 。 
因为 它 的 运行 速度 非常 快 , 做 起 实验 来 非常 方便 。 我 们 将 在 第 12 章 的 案例 学 习 中 探究 LDA,， 展示 
如 何 用 它 来 改进 相关 文件 发 掘 的 框架 。 


96 小结 


在 这 一 章 中 你 了 解 了 Mahout 中 的 聚 类 算法 。 我 们 按 聚 类 策略 将 各 种 聚 类 算法 归纳 到 表 9-3 中 。 
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表 9-3 ”Mahout 中 的 各 种 聚 类 算法 、 入 口 类 及 属性 


算 法 in-memory 实 现 MapReduce 实 现 HERR 部 分 从 属 
k-means KMeansClusterer KMeansDriver Y N 
canopy CanopyClusterer CanopyDriver N N 
模糊 k-means FuzzyKMeansClusterer FuzzyKMeansDriver Y Y 
SKA DirichletClusterer DirichletDriver N ¥ 
LDA N/A LDADriver Y Y 


Mahout XZ FU Wk-means $474 Xt} K HE EAD oH ESERE BGR, 
以 我 们 探索 了 改善 中 心 估 计 的 方法 。canopy 聚 类 算法 可 以 快速 、 近 似 地 对 数据 进行 聚 类 ,并 得 到 
近似 的 簇 中心 。 使 用 这 些 中 心 作 为 初始 值 , k-means 迭代 过 程 会 更 快 地 收敛 ,我 们 也 了 解 了 k-means 
的 各 种 参数 ， 并 用 k-means 创建 了 一 个 新 闻 网 站 聚 类 的 模块 。 通 过 尝试 Mahout 中 的 各 种 距离 测度 
类 ， 我们 可 以 优化 新 闻 聚 类 模块 ， 以 得 到 更 好 的 文本 肾 类 质量 。 

模糊 k-means 聚 类 给 出 了 文档 对 不 同 复 的 部 分 从 属 信息 ， 并 且 要 比 k-means 具 有 更 好 的 收敛 
性 。 我 们 使 用 模糊 k-means 作 为 聚 类 模块 ， 来 获取 这 种 软 分 配 信息 。 由 于 k-means 和 模糊 k-means 
都 需要 预先 设 定 k 值 ， 我 们 也 探索 了 其 他 方法 ， 并 发 现 基 于 模型 的 聚 类 算法 可 以 作为 一 个 很 好 的 
替代 品 。 

狄 利克 雷 聚 类 是 Mahout 中 基于 模型 的 聚 类 算法 , 它 并 不 仅仅 是 将 点 分 配给 各 个 簇 , 还 可 以 解 
释 模型 对 数据 的 拟 合 程 度 以 及 簇 中 点 的 分 布 情况 。 该 算法 可 以 找 出 很 复杂 的 数据 集中 的 簇 , 而 前 
面 提 到 的 方法 则 不 行 。 狄 利克 雷 聚 类 被 证 明 是 描述 此 类 数据 的 一 个 有 力 工具 。 

最 后 , 我 们 介绍 了 LDA。LDA 是 聚 类 领域 的 一 个 新 进展 ， 可 以 将 数据 建 模 为 混合 话题 。 这 些 
话题 不 仅仅 是 文档 复 , 也 是 词 的 概率 分 布 。LDA 可 以 在 将 单词 集合 聚 类 为 话题 的 同时 , 将 文档 与 
多 个 话题 关联 起 来 。LDA 带 来 了 一 些 新 的 发 展 方向 , 它 允 许 我 们 仅 通过 分 析 文 本 语料库 就 能 得 到 
单词 之 间 的 联系 。 

实际 应 用 中 , 究竟 哪 种 方法 最 适合 你 的 数据 ,还 要 通过 实验 来 选择 。Mahout 的 聚 类 包 中 有 一 
些 有 力 的 工具 , 它们 建立 在 Hadoop 的 基础 上 , 良好 的 可 扩展 性 使 得 你 可 以 通过 简单 添加 机 器 来 对 
任意 规模 的 数据 进行 聚 类 。 

下 面 的 章节 将 更 注重 聚 类 算法 速度 和 质量 的 调 优 。 沿 着 这 个 思路 ,我们 将 优化 新 闻 聚 类 代码 ， 
并 最 终 展示 一 个 实用 的 相关 文章 功能 。 我 们 也 会 在 案例 学 习 中 探索 一 些 有 趣 的 问题 , 它们 都 可 以 
用 Mahout 中 的 聚 类 算法 来 解决 。 

下 面 , 我 们 将 在 第 10 章 中 介绍 Mahout 中 一 些 不 太 常 见 的 工具 和 技术 , 它们 可 以 帮助 你 理解 并 
改善 聚 类 的 质量 。 


本 章 内 容 

口 检查 聚 类 输出 
口 评估 到 类 质量 
口 改善 聚 类 质量 


前 一 章 中 我 们 学 习 了 很 多 聚 类 算法 : k-means, 、canopy、 模 糊 k-means、 狄 利克 雷 聚 类 以 及 LDA 
等 。 它们 在 特定 数据 集 上 表现 效果 很 好 ,而 有 时 在 其 他 数据 集 上 却 表 现 较 差 。 完 成 任 一 聚 类 之 后 
都 会 有 一 个 很 自然 的 问题 : 算法 在 这 个 数据 集 上 的 表现 究竟 如 何 ? 

分 析 聚 类 的 输出 是 一 项 重要 工作 。 可 以 通过 简单 的 命令 行 工 具 , 或 可 视 化 的 GUI 工具 来 完成 。 
将 徐 可 视 化 并 确定 问题 所 在 之 后 , 这 些 结果 可 以 正式 作为 质量 评价 的 指标 , 即 以 数值 的 形式 来 表 
明 复 的 好 坏 。 在 本 章 中 ， 我 们 将 介绍 几 种 检查 、 评 估 和 改善 聚 类 算法 的 方法 。 

对 聚 类 算法 调 优 涉 及 建立 自 定义 的 距离 测度 标准 以 及 选择 合适 的 算法 ,评价 指标 反映 出 距离 
测度 标准 对 夷 类 质量 的 影响 。 首先, 你 需要 知道 徐 看 起 来 的 样子 以 及 簇 中 心 能 够 表达 的 特征 。 你 
还 需要 知道 数据 点 在 不 同 簇 间 的 分 布 。 你 肯定 不 希望 1 个 簇 都 只 有 一 个 数据 点 ， 而 第 个 簇 则 歧 
括 了 剩 下 所 有 的 数据 点 。 

知道 篮 的 样子 之 后 ,你 就 能 集中 精力 去 改进 聚 类 算法 。 为 此 ,你 需要 知道 如 何 调整 输入 向 量 
的 质量 、 距 离 测度 标准 以 及 算法 的 各 种 参数 。 

下 面 开始 我 们 的 旅程 ， 去 探索 一 些 能 帮助 检查 聚 类 输出 的 工具 和 技术 。 


10.1 检查 聚 类 输出 


Mahout 中 检查 聚 类 输出 的 主要 工具 是 clusterDumper。clusterDumper 就 在 mahout-utils 
模块 的 org.apache.mahout.utils.clustering 包 中 (也 可 通过 bin/mahout 脚 本 的 clusterdump 命 令 调 
FA). 用 clusterDpumper 读 取 Mahout 中 夷 类 算法 的 输出 很 方便 。 第 9 章 中 介绍 k-means 时 你 就 已 经 
见 过 它 了 ， 本 章 中 我 们 将 用 它 来 分 析 聚 类 质量 。 

ClusterDumper 的 输入 是 簇 集合 ， 此 外 ， 将 数据 转 为 向 量 时 生成 的 词典 也 是 一 个 可 选 的 输 
和 人 和。clusterDumper 完 整 的 选项 列 于 表 10-1 中 。 
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表 10-1 Mahout 中 clusterDumper 工 具 的 选项 及 默认 值 


选 项 标 ” 志 描 述 Bk iA 值 
SequenceFile 目 录 -S 41,2 sequenceFilel)] HR N/A 
(String ) 
输出 (String) <6 输出 文件 ; 若 不 指定 ， 则 输出 到 终端 N/A 
数据 点 目录 -P 聚 类 结束 之 后 ，Mahout 的 聚 类 算法 会 产生 两 种 输出 。 一 种 是 成 对 的 < N/A 
(string ) ikid, 簇 中 心 > 集合 ， 另 一 种 是 成 对 的 < 数据 点 id, 能 id> 集 合 。 后 者 在 


聚 类 完成 时 生成 ， 通 常 存放 在 输出 目录 的 points 文 件 夹 下 。 当 此 参数 
设 为 points 文 件 夹 时 ,会 输出 一 个 簇 中 的 所 有 数据 点 


ijji (string) -a 词典 文件 路 径 ， 词 典 文件 包含 从 整数 ID 到 单词 的 反 向 映射 N/A 

词典 类 型 -at 词典 文件 的 类 型 。 若 为 text ( 文本 ) ， 则 整数 ID 和 单词 应 该 用 制 表 符 text 

(String ) 分 隔 。 若 格式 为 sequenceFile,， 则 应 该 有 一 个 Integezr 类 型 的 键 和 
String 类 型 的 值 

单词 个 数 (int) -n 需要 打印 的 单词 个 数 10 


回想 一 下 ,任何 艇 都 有 一 个 中 心 点 , 它 是 该 簇 中 的 所 有 点 的 平均 值 。 除了 基于 模型 的 聚 类 算 
法 如 狄 利 克 雷 算法 之 外 , 这 对 所 有 算法 都 成 立 。 在 狄 利克 雷 聚 类 过 程 中 , 中 心 并 不 是 点 的 平均 值 ， 
而 是 一 组 特定 数据 点 的 锚 点 。 

中 心 点 可 以 作为 对 簇 的 概括 总 结 , 方便 我 们 快速 了 解 各 个 簇 的 性 质 。 中 心 点 中 权重 最 高 的 那 
些 特征 ( 即 值 最 大 的 那些 维度 ) 最 能 反映 簇 的 性 质 。 对 于 文本 文档 来 说 ,特征 即 是 单词 ， 也 就 是 
说 中 心 点 权重 最 高 的 那些 单词 反映 出 了 该 篮 中 文档 要 表达 的 含义 。 

例如 ， 讨 论 近 期 美国 总 统 大 选 的 文档 复 中 ，Obama、MecCain 和 election 这 些 特征 将 会 有 较 高 
的 权重 。 这 些 权重 最 高 的 特征 之 间 在 语义 上 也 是 有 关联 的 。 另 一 方面 ， 如果 权 重 最 大 的 特征 并 不 
相关 ， 则 意味 着 簇 中 记录 了 一 些 不 相关 的 东西 。 导 致 这 一 现象 的 原因 可 能 是 多 方面 的 ， 本章 会 对 
其 中 的 大 部 分 原因 进行 讨论 。 

我 们 来 看 一 个 例子 ,在 两 个 k-means 聚 类 输出 上 执行 ClusterDumpez 的 结果 : 其 中 一 个 使 用 
了 欧 氏 距离 测度 ， 而 男 一 个 使 用 了 余弦 距离 测度 : 


$ bin/mahout clusterdump \ 

-s kmeans-output/clusters-19/ \ 

-d reuters-vectors/dictionary.file-0O \ 
-dt sequencefile -n 10 


ClusterDumper 为 每 个 簇 输 出 了 一 系列 信息 ， 包 括 中 心 向 量 和 簇 中 权重 最 高 的 词汇 。 向 量 
的 各 个 维度 被 转化 为 词典 中 的 单词 并 输出 到 屏幕 上 。 将 这 些 输出 写 人 到 文本 文件 中 可 能 更 容易 查 
阅 ， 可 以 使 用 -o 选 项 来 实现 这 一 功能 : 


$ bin/mahout clusterdump \ 

-s kmeans-output/clusters-19/ \ 

-oO output.txt \ 

-d reuters-vectors/dictionary.file-0O \ 
-dt sequencefile -n 10 
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可 以 使 用 任何 文本 编辑 器 打开 这 里 的 output.txt 文 件 。 包 含 各 簇 的 中 心 向 量 的 行 通常 比较 长 ， 
因此 在 下 面 的 输出 中 将 其 省 略 。 下 面 的 代码 清单 是 一 个 典型 的 top-10 词 汇 有 序列 表 ， 取 自 Reuters 
数据 集 上 k-means 聚 类 的 结果 ， 其 中 使 用 了 欧 氏 距离 测度 。 


代码 清单 10-1 k-means 此 类 结果 中 的 前 10 个 词 (使 用 欧 氏 距离 测度 ) 


Top Terms: 


said => 11.60126582278481 
bank => 5.943037974683544 
dollar => 4.89873417721519 
market => 4.405063291139241 
us => 4.2594936708860756 
banks => 3.3164556962025316 
pet => 3.069620253164557 
he => 2.740506329113924 
rates => 2.7151898734177213 
rate => 2.7025316455696204 


上 述 簇 中 靠 前 的 词汇 显示 它 包 含 与 银行 有 关 的 文档 。 一 个 类 似 的 簇 列 于 代码 清单 10-2 中 , 它 
是 使 用 余弦 相似 度 得 到 的 。 


代码 清单 10-2 ”k-means 公 类 结果 中 的 前 10 个 词 (使 用 余 吾 距离 测度 ) 


Top Terms: 


bank => 3.3784878432986294 
stg => 3.122450990639185 
bills => 2.440446103514419 
money => 2.324820905806048 
market => 2 .223828649332401 
england => 1.6710182027854468 
pet => 1.5883359918481277 
us = 1.490838685054553 
dealers => 1.4752549691633745 
billion => 1.3586127823991738 


它们 很 相似 ， 但 看 起 来 后 者 要 更 好 一 点 。 第 二 个 簇 中 money 是 一 个 重要 词汇 ， 而 第 一 个 艇 的 
重要 词汇 中 出 现 了 said 这 个 常见 动词 。 
下 一 节 将 基于 上 述 输出 来 对 聚 类 质量 进行 评估 。 


10.2 分 析 聚 类 输出 


影响 聚 类 质量 的 不 仅仅 是 输入 ， 还 包括 众多 的 算法 ， 每 个 算法 都 有 需要 调 优 的 参数 。 如 
果 聚 类 出 现 了 错误 ， 要 对 其 进行 调试 是 很 困难 的 。 因 此 ， 通 过 分 析 簇 来 了 解 发 生 了 什么 显得 
格外 重要 。 

我 们 首先 来 分 析 代 码 清单 10-1 和 代码 清单 10-2 的 输出 ， 主 要 关注 以 下 3 个 方面 : 

口 距离 测度 和 特征 选择 ; 

口 RAW RARER ; 

OiRAURHBWR. 
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10.2.1 距离 测度 与 特征 选择 


对 于 文本 来 说 , 余弦 距离 测度 更 为 合适 , 因为 它 根 据 高 权重 的 公共 单词 来 聚合 文档 。TF-IDF 
权重 向 量 中 , 话题 单词 具有 较 高 的 权重 , 因此 使 用 余弦 距离 测度 聚合 到 一 起 的 相似 文档 更 倾向 于 
拥有 公共 的 话题 单词 。 这 使 得 簇 中 心 向 量 中 ,话题 单词 相 比 停 用 词 会 具有 更 高 的 平均 权重 。 

代码 清单 10-2 中 的 重要 单词 都 是 话题 相关 的 ， 而 且 没 有 像 said 这 样 的 停 用 词 。 我 们 在 代码 清 
单 10-1 中 则 遇 到 了 这 类 词 ， 即 包含 了 一 些 并 不 重要 的 词汇 。 尽管 两 个 示例 中 都 使 用 了 TF-IDF 权 重 
向 量 ， 代 码 清单 10-1 的 方法 中 ，said 这 个 常见 动词 的 重要 性 较 高 。 尽 管 said 的 权重 ( 在 TF-IDF 向 
量 中 ) Bey, 其 在 整个 簇 中 得 到 的 均值 却 会 比 一 些 话题 单词 还 要 大 ， 因 为 欧 氏 距离 测度 给 予 所 有 
的 特征 同样 的 重要 性 。 

如 你 所 见 ， 选 择 好 的 距离 测度 有 助 于 改善 质量 。 

对 特征 进行 加 权 

好 的 簇 通常 围绕 一 些 较 强 的 特征 而 形成 ,这些 特 征 使 得 文档 之 间 在 概念 上 形成 强烈 的 相似 
性 。 这 意味 着 选择 正确 的 特征 与 正确 的 距离 测度 有 着 同样 的 重要 性 ; 对 于 无 结构 的 文本 , 需要 提 
取 好 的 特征 以 得 到 好 的 聚 类 质量 。 但 TF-IDF 加 权 有 一 些 局 限 性 。 对 于 实际 应 用 , 我 们 需要 在 这 一 
加 权 技 术 的 基础 上 加 以 改进 。 

对 于 其 他 类 型 的 数据 , 需要 对 权重 向 量 进行 精心 设计 以 得 到 最 优 结果 。 好 的 聚 类 算法 需要 给 
予 重要 特征 较 高 的 权重 ， 而 给 予 不 重要 的 特征 较 低 的 权重 。 

回忆 第 8 章 中 对 苹果 向 量化 的 例子 。 从 数值 上 来 讲 ， 颜 色 值 较 大 ， 重 量 值 较 小 。 如 果 我 们 发 
现 重量 是 比 颜色 更 好 的 特征 ,那么 重量 值 就 需要 放大 ， 而 颜色 值 则 需要 缩小 。 例如， 颜色 值 可 以 
缩小 到 0~1 之 间 ， 而 重量 值 可 以 放大 到 0~100 之 间 。 这 样 一 来 , 这些 值 的 物理 意义 就 不 存在 了 。 留 
下 的 仅仅 是 一 个 向 量 ， 其 特征 和 权重 会 使 得 对 苹果 的 聚 类 效果 更 佳 。 


10.2.2 RP SRALS 


给 出 所 有 中 心 点 , 可 以 计算 出 特定 距离 测度 下 所 有 中 心 点 对 之 间 的 距离 , ED EIB Re as 
出 来 。 这 个 徐闻 距离 矩阵 很 好 地 反映 了 聚 类 过 程 中 所 发 生 的 事情 ， 它 展示 了 最 终结 果 里 复 之 间 的 
远近 关系 。 

徐 内 距离 是 一 个 簇 内 部 所 有 成 员 间 的 距离 ,而 不 是 两 个 不 同 簇 之 间 的 距离 。 这 一 指标 反映 出 
距离 测度 标准 汇聚 元 素 的 能 力 。 

下 面 我 们 来 看 看 这 两 类 距离 。 

1. 簇 间 距离 

簇 间 距离 能 够 很 好 的 反映 聚 类 质量 ; 好 的 聚 类 结果 中 不 同 簇 中 心 点 之 间 不 大 可 能 靠 得 很 近 ， 
太 近 则 意味 着 聚 类 过 程 产生 了 多 个 具有 相似 特征 的 组 ， 并 导致 复 之 间 的 区 别 不 够 显著 。 

如 果 找 到 一 篇 新 闻 ， 它 在 关于 US、president 和 election 的 簇 中 ， 而 不 在 讨论 candidate、United 
States 和 McCain 的 簇 中 ， 这 有 意义 吗 ? 应 该 没有 ; 我 们 可 能 不 希望 徐 相 互 之 间隔 得 太 近 。 簇 间距 
离 与 这 方面 的 质量 密切 相关 。 图 10-1 显 示 了 两 种 不 同 数据 分 布 的 簇 间距 离 。 
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BORAT IAL FES Bey AAR IAL BB 
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(0, 0) x fit (0, 0) x 轴 
图 10-1 簇 间 距离 是 反映 数据 划分 好 坏 的 一 个 标准 。 它 依赖 于 特征 加 权 技 术 
以 及 所 用 的 距离 测度 


我 们 知道 欧 氏 距离 值 通常 要 比 余弦 距离 值 大 。 在 距离 测度 不 同 的 情况 下 比较 簇 间 距离 没有 意义 ， 
除非 他 们 都 被 归 一 化 到 同样 的 范围 。 归 一 化 后 的 所 有 簇 的 平均 簇 间 距离 能 够 很 好 的 反映 聚 类 质量 。 
下 面 的 代码 清单 给 出 了 一 种 根据 聚 类 输出 计算 往 间 距离 的 简单 方法 。 


>» j x 
代码 清单 10-3 ”计算 簇 间距 离 
public class InterClusterDistances { 
public static void main(String args[]) throws Exception { 
String inputFile 
= "reuters-kmeans-clusters/clusters-6/part-r-00000"; | 设 定 聚 类 输出 路 径 


Configuration conf = new Configuration(); 
Path path = new Path(inputFile) ; 


System.out.println("Input Path: " + path); 
FileSystem fs = FileSystem.get(path.toUri(), conf); 


List<Cluster> clusters = new ArrayList<Cluster>(); 


SequenceFile.Reader reader = new SequenceFile.Reader(fs, path, conf); 


writable key = (Writable) reader.getKeyClass().newInstance() ; 
writable value = (Writable) reader.getValueClass().newInstance(); 
while (reader.next(key, value)) { 1 ARHAR 

Cluster cluster = (Cluster) value; 

clusters.add(cluster) ; 

value = (Writable) reader.getValueClass().newInstance() ; 


} 


DistanceMeasure measure = new CosineDistanceMeasure(); 
double max = 0; 
double min = Double.MAX_VALUE; 


double sum = 0; 

int count = 0; 

for (int i = 0; i < clusters.size(); i++) { a 计算 距离 测度 
for (int j = i+ 1; j < clusters.size(); j++) { 


double d = measure.distance(clusters.get(i).getCenter(), 
clusters.get(j).getCenter()); 

min = Math.min(d, min); 

max = Math.max(d, max); 


KEY 


No. 10 
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sum += d; 
count++; 
} 
} 
System.out.printin ("Maximum Intercluster Distance: " + max); 
System.out.println("Minimum Intercluster Distance: " + min); 


System.out.printin ("Average Intercluster Distance (Scaled): " 


} 
} 


+ (sum / count - min) / (max - min)); 


代码 清单 10-3 计 算 了 所 有 中 心 点 对 之 间 的 距离 , 并 计算 了 最 小 、 最 大 以 及 归 一 化 的 簇 间 距离 。 
对 于 使 用 cosineDistanceMeasure 的 Reuters 聚 类 结果 ， 它 提供 了 如 下 输出 : 


Maximum Intercluster Distance: 0.9577057041381253 
Minimum Intercluster Distance: 0.22988591806895065 
Average Intercluster Distance(Scaled): 0.7702427093554679 


在 使 用 欧 氏 距离 测度 的 Reuters 聚 类 结果 上 运行 同样 的 代码 ， 会 得 到 明显 不 同 的 输出 : 


Maximum Intercluster Distance: 96165.06236154583 
Minimum Intercluster Distance: 2.7820472396645335 
Average Intercluster Distance(Scaled): 0.09540179823852128 


注意 , 使 用 余弦 距离 测度 时 , Hic) AE ACRES AC) PEE CR AS AE FA BS 
测度 时 ，, 簇 的 分 布 较为 均匀 。 而 使 用 欧 氏 距离 时 ,最 小 簇 间距 离 非常 小 , 这 意味 着 至 少 有 两 个 簇 
几乎 一 样 ， 或 者 说 几乎 完全 重合 。 

归 一 化 后 的 平均 簇 间距 离 清 晰 的 显示 出 余弦 距离 测度 要 优 于 欧 氏 距离 , 因为 它 生成 的 簇 分 布 


更 均匀 。 这 也 揭示 了 为 什么 基于 余弦 距离 得 到 的 簇 中 , 重要 词汇 的 质量 要 比 基 于 欧 氏 距离 得 到 的 


ÍR o 


2. RAER 
EAER (一 个 簇 内 的 成 员 之 间 的 距离 ) ZHR. E10-2/7 TEAPA EE 
测度 所 得 到 的 簇 内 距离 。 一 个 好 的 距离 测度 会 使 得 相似 对 象 间 的 距离 较 小 ,并 产生 更 为 紧凑 的 簇 ， 


因而 也 能 更 可 靠 的 区 分 不 同 簇 。 
较 大 的 徐 内 距离 较 小 的 簇 内 距离 
要 a 
(0. 0) x 4h (0, 0) 工 轴 


图 10-2 ” 簇 内 距离 是 反映 数据 点 接近 程度 的 指标 。 聚 类 质量 取决 于 两 个 因素 : 距 
离 测度 给 相隔 较 远 的 对 象 较 大 的 惩罚 值 ， 给 相隔 较 近 的 对 象 较 小 的 惩罚 
值 。 二 者 的 比值 越 大 ， 簇 越 分 散 
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10.23 KHRGSES 


在 某 些 数 据 集中 ， 很 难 将 数据 点 划分 为 好 的 徐 。 这 种 情况 下 产生 的 秘 具 有 较 低 的 簇 间距 离 ， 
其 大 小 已 经 接近 簇 内 距离 了 。 对 这 类 数据 集 , 更 改 距 离 测度 或 改进 特征 选择 策略 通常 不 会 有 什么 
效果 。 我 们 需要 使 用 一 些 特殊 的 算法 ， 例 如 模糊 k-means ( 识别 部 分 从 属 关系 ) 或 犹 利克 雷 过 程 
聚 类 〈 识别 能 够 拟 合 数据 的 模型 )。 

回顾 一 下 各 种 聚 类 算法 是 必要 的 , 包括 它们 的 优势 以 及 适用 的 数据 类 型 。 下 一 节 将 探索 一 些 
能 够 改进 簇 间 和 簇 内 距离 的 进 阶 技术 。 


10.3 ”改善 聚 类 质量 


有 两 个 因素 对 改善 聚 类 质量 至 关 重 要 : 改进 文档 中 特征 的 加 权 方 式 以 及 设计 更 合理 的 距离 测 
度 。 好 的 加 权 策 略 可 以 突出 对 象 中 好 的 特征 , 而 合适 的 距离 测度 则 有 助 于 将 相似 的 特征 聚集 到 一 
起 。 接 下 来 的 两 个 小 节 会 告诉 你 如 何 设 计 自 定 义 的 特征 选择 类 和 距离 测度 类 。 


10.3.1 改进 文档 向 量 生成 过 程 


好 的 文档 向 量 要 有 合适 的 特征 ， 即 赋予 重要 特征 更 高 的 权重 。 在 文本 数据 中 ， 有 两 种 方式 可 
以 用 来 改善 文档 向 量 的 质量 : 去 除 噪 声 和 使 用 合适 的 加 权 技 术 。 

并 非 所 有 文本 文档 都 是 高 质量 的 , 可 能 会 有 一 些 比较 怪异 的 语句 , 单词 也 可 能 由 于 格式 或 结 
构 的 原因 而 很 难 区 分 。 互 联网 上 产生 的 海量 数据 集 就 是 如 此 。 因 特 网 上 的 大 部 分 文本 内 容 ， 如 网 
页 、 博 客 、wiki、 聊 天 记录 或 论坛 ， 在 传输 过 程 中 都 混杂 着 大 量 标记 、 样 式 表 和 脚本 ， 而 不 是 纯 
粹 的 文本 。 通 过 OCR (Optical Character Recognition， 光 学 字符 识别 ) 技术 解析 扫描 文档 而 产生 
的 文字 ， 还 有 SMS 信 息 ， 它 们 的 质量 都 很 差 ， 例 如 字符 识别 错误 (the 识别 为 me ) HRM HA 
( 用 c u 表 示 see you )。 文 本 中 可 能 丢失 字符 、 空 格 或 标点 符号 ， 或 者 包含 随意 的 术语 甚至 意 想 不 
到 的 单词 和 语法 错误 。 要 在 噪声 如 此 严重 的 情况 下 完成 聚 类 是 很 困难 的 。 要 得 到 比较 好 的 质量 ， 
需要 首先 从 数据 中 清理 掉 这 些 错误 。 

一 些 现 成 的 文本 分 析 工 具 可 以 很 好 地 处 理 这些 问 题 。 Mahout 提 供 了 一 个 钩子 , 允许 在 向 量化 
过 程 中 注入 任何 文本 过 滤 技 术 。 这 是 通过 一 种 叫做 Lucene Analyzer 的 东西 实现 的 。 尽 管 当 时 我 
们 没有 做 出 太 多 解释 ， 实 际 上 你 已 经 在 第 九 章 中 接触 过 了 Lucene analyzer， 在 那里 我 们 试图 改 
进 新 闻 聚 类 模块 。 

建立 自 定义 的 Lucene Analyzer 包 括 如 下 步骤 : 

口 扩展 Analyzer 接 口 ; 

O HAMtokenStream(String field, Reader r) 方 法 。 

代码 清单 10-4 展 示 了 一 个 自 定义 的 Lucene Analyzer， 它 使 用 standardTokenizer 将 一 篇 
文档 词 条 化 。standardTokenizer 是 Lucene 中 实现 的 具有 一 定 容 错 性 的 词 条 化 工具 ， 
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代码 清单 10-4 一 个 封装 了 StandardTokenizer 的 自 定 义 Lucene Analyzer 


public class MyAnalyzer extends Analyzer { 


对 一 一 ¥ 展 analyzer 
@Override 


public TokenStream tokenStream( 


String fieldName, Reader reader) { 


TokenStream result = new StandardTokenizer ( 从 Reader 产 生 


TokenStream 
Version.LUCENE_CURRENT, reader); 
return result; 
} 
} 


该 自 定义 分 析 器 将 Reader 输 入 的 文本 符号 化 为 一 个 词 条 流 。 一 个 词 条 就 是 一 个 单词 ， 所 以 


你 可 以 将 一 个 文本 文档 视 为 一 个 词 条 流 。 在 代码 清单 10-4 中 我 们 使 用 standardTokenizer 来 将 
Reader 中 的 内 容 词 条 化 。 


下 一 步 我 们 来 尝试 改进 这 个 Tokenizer。 我 们 不 再 简单 的 将 单词 词 条 化 , 而 是 引入 了 一 个 过 
滤器 来 将 词 条 都 转 为 小 写 。 更 新 后 的 类 示 于 下 面 的 代码 清单 中 。 


代码 清单 10-5” 带 有 小 写 过 滤器 的 Myanalyzer 
public class MyAnalyzer extends Analyzer { 
@Override 
public TokenStream tokenStream(String fieldName, 
TokenStream result = new StandardTokenizer ( 


Version. LUCENE _CURRENT, reader); 


result = new LowerCaseFilter(result) ; < 一 一 应 用 小 写 过 滤器 
return result; 


} 


Reader reader) { 


} 


TokenFilter 对 底层 的 词 条 流 应 用 了 某 种 变换 ， 这些 过 滤器 可 以 级 联 起 来 。 除 了 
LowerCaseFilter, Lucene 还 提供 了 stopFilter、 LengthFilter 和 PorterStemFilter。 
StopFilter 跳 过 底层 词 条 流 中 的 停 用 词 ，LengthFilter 过 滤 掉 长 度 不 在 指定 范围 内 的 词 条 ， 


PorterStemFilter 则 取 底 层 单词 的 词 干 。 取 词 干 是 一 个 将 单词 还 原 到 它 的 基本 形式 的 过 程 。 例 
如 单词 kicked 和 kicking 都 会 被 还 原 为 kick。 


注意 PorterStemFilter 仅 对 英文 文本 有 效 ， 但 Lucene 中 也 有 一 些 可 用 于 其 他 语言 的 词 干 过 
滤器 。 


使 用 这 些 过 滤器 可 以 创建 一 个 自 定义 的 Lucene analyzer， 如 代码 清单 10-6 所 示 。 
代码 清单 10-6 ”使 用 多 个 过 滤器 的 自 定义 Lucene Analyzer 


public class MyAnalyzer extends Analyzer { 
@Override 


public TokenStream tokenStream(String fieldName, Reader reader) { 
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TokenStream result = new StandardTokenizer ( 
Version.LUCENE_CURRENT, reader); 
result = new LowerCaseFilter(result) ; 
result = new LengthFilter(result,3, 50); 
result = new StopFilter(result, 
StandardAnalyzer.STOP_WORDS_SET) ; 
result = new PorterStemFilter(result) ; 
return result; 


} 


应 用 小 写 
过 滤器 


< 去 除 停 用 词 


根据 长 度 删 除 单词 


取 单 词 词 干 


使 用 这 个 Lucene Analyzer, 我 们 可 以 生成 TF-IDF 向 量 , 并 对 Reuters 集 合 中 的 数据 进行 聚 类 。 
这 里 我 们 借鉴 了 代码 清单 9-4 中 的 代码 ， 并 引入 了 这 里 的 analyzer， 如 代码 清单 10-7 所 示 。 


代码 清单 10-7 修改 NewsKMeansClustering.java， 改 用 MyAnalyzer 


public class NewsKMeansClustering { 
public static void main(String args[]) 
int minSupport = 5; 


int minD£ = 5; 
int maxDFPercent = 99; 
int maxNGramSize = 1; 


int minLLRValue = 50; 
int reduceTasks = 1; 
int chunkSize = 200; 
int norm = -1; 


boolean sequentialAccessOutput = true; 


String inputDir = “reuters-segfiles"; 
File inputDirFile = new File(inputDir); 
Configuration conf = new Configuration() ; 
FileSystem fs = FileSystem.get (conf); 
String outputDir = "newsClusters"; 
HadoopUtil.delete(conf, 
Path tokenizedPath = new Path(outputDir, 


DocumentProcessor.TOKENIZED_DOCUMENT_OUTPUT_FOLDER) ; 


MyAnalyzer analyzer = new MyAnalyzer(); 
Document Processor.tokenizeDocuments ( 
new Path(inputDir), analyzer.getClass() 
.asSubclass(Analyzer.class), 


new Path(outputDir)); 


tokenizedPath, conf); 


throws Exception { 


| 初始 化 MyAnalyzer 


,| 使 用 MyAnalyzer 词 条 化 


DictionaryVectorizer.createTermFrequencyVectors ( 


tokenizedPath, 
new Path(outputDir), conf, 
minLLRValue, 2, true, reduceTasks, 


chunkSize, sequentialAccessOutput, 
TFIDFConverter.processTfldf ( 
new Path(outputDir, 


false); 


< 一 一 生成 TF 向 量 


minSupport, maxNGramSize, 


< 一 一 生成 IDF 向 量 


DictionaryVectorizer .DOCUMENT_VECTOR_OUTPUT_FOLDER) , 


new Path(outputDir) , conf, chunkSize, 
minDf, maxDFPercent, norm, true, 
false, reduceTasks) ; 


Path vectorsFolder = new Path(outputDir, 


sequentialAccessOutput, 
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"/vectors"); 
Path centroids = new Path(outputDir, "/centroids"); 
Path clusterOutput = new Path(outputDir, "/clusters"); 


RandomSeedGenerator.buildRandom(conf, vectorsFolder, centroids, 
20, new CosineDistanceMeasure()) ; 


KmeansDriver.runJob(conf, vectorsFolder, centroids, 
clusterOutput, new CosineDistanceMeasure(), 0.01, 使 用 随机 中 心 的 
20, true, false); k-means 


SequenceFile.Reader reader = new SequenceFile.Reader(fs, 
new Path(clusterOutput, Cluster.CLUSTERED_POINTS_DIR 
+ "/points/part-m-00000"), conf); 


} 
} 


这 里 的 代码 与 你 在 第 8 章 和 第 9 章 中 见 到 的 很 相似 。 区 别 是 我 们 不 再 使 用 standard- 
Analyzer， 而 是 使 用 MyAnalyzer， 然 后 在 生成 的 向 量 上 执行 k-means 聚 类 。 在 Reuters 数 据 上 运 
行 完 代码 清单 10-7 的 聚 类 代码 之 后 ， 银 行 复 中 的 前 10 个 词汇 如 下 所 示 : 


Top Terms: 


billion a 4.766493374867332 
bank => 2.2411748607854296 
stg => 1.8598368697035639 
money => 1.7500053112049054 
mln => 1.7042239766168474 
bill => 1.6742077991552187 
dlr => 1.5460346601253139 
from => 1.5302046415514483 
pet => 1.5265302869149873 
surplus => 1.3873321058744208 


注意 ， 单 词 都 用 PorterstemFilter 变 成 了 词 干 ，StopwordsFilter 则 保证 了 几乎 不 存在 
停 用 词 。 这 体现 出 选择 合适 的 特征 集合 对 于 改进 聚 类 质量 的 意义 。 


10.3.2 ”编写 自 定 义 距 离 测 度 


如 果 向 量 的 质量 已 经 很 好 了 , 那 就 应 该 考虑 选择 合适 的 距离 测度 来 改进 聚 类 质量 。 我 们 已 经 
知道 余弦 距离 对 于 文本 文档 聚 类 来 说 较为 理想 。 为 了 展示 自 定 义 臣 离 测 度 的 威力 , 我 们 设计 了 一 
个 增强 的 余弦 距离 测度 : 它 使 大 的 距离 更 大 ， 小 的 距离 更 小 。 与 编写 Aanalyzer 类 似 ， 编 写 一 个 
自 定 义 DistanceMeasure 包 括 如 下 步 又: 

口 实现 DistanceMeasure 接 口 ; 

O 在 aistance(Vector vl, Vector v2) 方 法 中 编写 距离 测度 。 

我 们 更 改 后 的 余弦 距离 测度 如 代码 清单 10-8 所 示 。 


代码 清单 10-8 一 种 改进 的 余弦 距离 测度 


public class MyDistanceMeasure a 实现 DistanceMeasure 接 口 
implements DistanceMeasure { 
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@Override 


public double distance(Vector vl, 


if (vl.size() 


!= v2.size()) 
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{ 


Vector v2) 


throw new CardinalityException(vl.size(), 


{ 


v2.size()); 


| 重 载 aistance 方 法 


} 
double 
double 


lengthSquaredvl = vl.getLengthSquared(); 
lengthSquaredv2 = v2.getLengthSquared() ; 


double dotProduct = v2.dot (v1); 


double denominator = Math. sqrt (lengthSquaredv1) 


* Math.sqrt (lengthSquaredv2) ; 


if (denominator < dotProduct) { 
denominator = dotProduct; 
} 
double distance = 1.0 - dotProduct / denominator; 
if (distance < 0.5) { 
return (1 - distance) * (distance * distance) 
+ distance * Math.sqrt (distance); 
} else return Math.sqrt(distance) ; 


3 "I 返回 距离 测度 


@Override 
public double distance(double centroidLengthSquare, 
Vector centroid, 
Vector v) { 
return distance(centroid, v); 


< 一 一 计算 距离 


} 


@Override 


public void createParameters(String prefix, JobConf jobConf) {} 


@Override 

public Collection<Parameter<?>> getParameters() { 
return Collections.emptyList(); 

} 


@Override 
public void configure(JobConf argO) {} 
} 


在 一 个 MapReduce 作 业 中 ， configure(), getParameters () MlcreateParameters () 等 
方法 用 来 在 各 个 作业 节点 中 为 DistanceMeasure 传 递 参数 。 这 里 我 们 重点 关注 aistance 函 数 。 
它 首先 计算 标准 余弦 距离 测度 ， 然 后 又 通过 取 平 方 使 得 近 的 距离 变 得 更 近 ( 若 值 在 0 到 0.5 之 间 ), 


而 使 远 的 距离 更 远 。 
在 此 距离 测度 下 ， 一些 有 趣 的 小 众 话题 浮 出 水 面 ， 这 是 之 前 不 曾 出 现 过 的 : 
排名 靠 前 的 词 项 : 
futures => 3.2517230513480757 
trading => 2.73124880187049 
exchange => 2.2752173132458906 
market => 2.0752484701513274 
said => 1.9316076421017707 
stock => 1.8062251904561821 


new => 1.5571645992558176 
traders = 1.531255338250137 
index => 1.3630116680911748 
options => 1.183384693735014 


注意 , 这 个 结果 是 从 standardanalyzer 词 条 化 的 向 量 中 生成 的 。 你 可 以 尝试 用 自 定义 Lucene 
Analyzer 和 自 定义 的 DistanceMeasure 来 得 到 理想 的 聚 类 结果 。 


10.4 ”小 结 


在 本 章 中 ， 我 们 探讨 了 如 何 改 进 聚 类 。 算 法 、 距 离 测 度 以 及 数据 类 型 都 会 影响 聚 类 的 输出 。 
ClusterDumper 工 具 可 以 检查 任何 聚 类 算法 的 输出 : 各 个 簇 的 主要 特征 以 及 中 心 向 量 。 这 可 以 
帮助 你 理解 聚 类 过 程 。 

对 于 海量 数据 集 , 手动 的 检查 所 有 簇 是 不 可 行 的 。 我 们 可 以 通过 徐 间 和 簇 内 距离 来 快速 得 到 
限 类 质量 的 评分 。 如 果 很 多 簇 都 靠 得 太 近 ， 就 需要 考虑 传统 k-means 以 外 的 方法 ， 看 看 部 分 从 属 
关系 或 混合 分 布 是 否 适 用 。 

编写 一 个 自 定义 的 Lucene Analyzer 和 一 个 自 定义 的 相似 性 度量 ， 有 助 于 在 标准 实现 的 基础 
上 进一步 改善 聚 类 质量 。 我 们 发 现 通过 尝试 自 定义 度量 标准 来 改善 聚 类 质量 是 很 有 意义 的 。 

现在 , 你 已 经 有 能 力 处 理 任何 类 型 的 数据 ， 并 调 优 你 的 聚 类 算法 , 使 其 更 好 地 工作 。 很 快 你 
将 遇 到 聚 类 中 最 大 的 困难 : 规模 。 幸 运 的 是 ，Mahout 可 以 将 TB 级 的 数据 分 散 到 庞大 的 Hadoop 集 
群 上 进行 处 理 。 下 面 ， 我 们 会 探索 Mahout 中 的 聚 类 算法 如 何 发 挥 Hadoop 的 作用 。 在 第 11 章 中 ， 
你 将 学 习 如 何在 Hadoop 集 群 上 运行 一 个 聚 类 作业 ， 并 使 你 的 聚 类 算法 应 用 于 具体 产品 。 


将 聚 类 用 于 生产 环境 


本 章 内 容 

O 在 Hadoop 集 群 上 运行 聚 类 作业 
口 对 聚 类 作业 进行 性 能 调 优 

口 批 聚 类 及 在 线 聚 类 


前 面 我 们 已 经 看 到 ， 如 何 利 用 不 同 的 Mahout 聚 类 算法 对 路 透 社 新 闻 数 据 集中 的 文档 进行 聚 
类 。 与 此 同时 , 我 们 也 学 到 了 数据 的 向 量 表示 、 距离 测度 方法 和 其 他 多 种 可 以 提高 簇 质量 的 方法 。 
Mahout 的 一 个 优点 是 它 的 可 扩展 能 力 。 路 透 社 数据 集 几 乎 不 具备 挑战 性 ， 因 此 本 章 会 给 Mahout 
找 一 个 更 具 挑战 性 的 任务 。 我 们 将 对 世界 上 极为 庞大 的 免费 数据 集 一 一 维基 百科 ( Wikipedia ) 这 
部 免费 百科 全 书 进行 聚 类 。Mahout 能 够 处 理 这 种 规模 的 数据 ,这 是 因为 其 算法 以 MapReduce 作 业 
的 方式 实现 ， 而 这 些 作 业 能 够 在 成 百 上 千 台 计算 机 构成 的 Hadoop 集 群 ? 上 运行 。 

遗憾 的 是 , 并 非 所 有 人 都 能 访问 这 样 一 个 集群 。 在 本 章 中 为 示范 起 见 , 我 们 使 用 了 从 维基 百 
科 中 提取 的 一 个 文档 子 集 , 并 在 一 个 小 规模 的 集群 上 进行 了 实验 , 该 实验 能 够 说 明 通 过 增加 机 器 
来 获得 更 快 的 速度 。 我 们 一 开始 在 一 个 单机 的 Hadoop 环 境 ( 也 称 伪 分 布 式 Hadoop， 具 体内 容 可 
以 参见 第 6 章 ) 我 们 还 将 考察 Mahout 的 启动 程序 , 它 能 够 很 容易 地 在 本 地 或 给 定 配 置 文件 的 条 件 
时 在 任意 Hadoop 集 群 上 启动 聚 类 作业 。 然 后 , 我 们 讨论 如 何 对 聚 类 作业 进行 性 能 调 优 。 最 后 , 我 
们 讨论 如 何 利 用 现 有 的 Mahout 聚 类 算法 来 设计 一 个 能 够 以 在 线 模式 进行 增 量 式 聚 类 的 系统 。 


11.1 Hadoop 下 运行 聚 类 算法 的 快速 入 门 


首先 让 我 们 来 看 看 Hadoop 的 架构 。 

Hadoop 集 群 由 一 个 叫做 名 字 节 点 (NameNode， 也 称 主 节点 ) 的 服务 器 及 其 控制 的 不 同 数据 
节点 (DataNode ) 组 成 。 名 字 节 点 也 用 于 同步 Hadoop 分 布 式 文件 系统 ( HDFS )。 另 一 个 称 为 
JobTracker 的 服务 器 ， 负 责 管 理 所 有 的 MapReduce 任 务 以 及 集群 中 执行 Mapper 和 Reducezr 的 计算 


@ Ajay Anand 在 其 博文 “Scaling Hadoop to 4000 nodes at Yahoo!” 中 描述 了 2008 年 雅虎 在 4000 个 节点 上 运行 Hadoop 
的 情况 ， 该 博文 的 地 址 为 http://developer.yahoo.net/blogs/hadoop/2008/09/scaling hadoop_to 4000_nodes a.html。 
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机 节点 。 在 每 一 个 节点 当中 ,一 个 称 为 TaskTracker 的 进程 负责 管理 着 来 自 JobTracker 的 Mappez 或 
Reducer 执 行 请 求 。 

Hadoop 能 够 无 颖 地 实现 上 述 过 程 ， 并 且 不 需要 任何 用 户 干 预 。 在 单 节 点 集群 中 ， 名 字 节 点 、 
JobTracker、 数 据 节 点 和 TaskTracker 等 都 运行 在 同一 系统 下 ， 它 们 各 自 运 行 在 独立 的 进程 中 并 彼 
此 交互 。 

本 书写 作 之 时 ，Mahout 设 计时 计划 使 用 的 Hadoop 版 本 是 0.21 (不 过 它 应 该 与 更 新 的 版 本 
兼容 )。 


11.1.1 在 本 地 Hadoop 集 群 上 运行 聚 类 算法 


读者 可 以 在 网 页 http://wiki.apache.org/hadoop/QuickStart 中 找到 一 个 建立 本 地 伪 分 布 式 模式 下 
的 Hadoop 集 群 的 快速 入 门 。 你 需要 为 本 章 的 例子 建立 这 种 本 地 集群 。 

Hadoop 二 进 制 执行 文件 存放 在 Hadoop 主 目录 的 /bin 目 录 下 。 要 浏览 HDFS 的 内 容 ， 执 行 如 下 
命令 : 

bin/hadoop dfs -ls / 
上 述 命令 将 会 列 出 文件 系统 根 目录 下 的 所 有 文件 。 

当 集 群 第 一 次 启动 时 , 你 的 主 目录 可 能 在 HDFS 中 不 存在 , 因此 需要 创建 一 个 /user/< 你 的 Unix 
用 户 名 > 的 目录 : 

bin/hadoop dfs -mkdir /user/< 你 的 Unix 用 户 名 > 
也 可 以 通过 如 下 命令 查看 主 目录 : 

bin/hadoop dfs -ls 

要 开始 在 你 当前 的 伪 分 布 式 集群 下 对 路 透 社 数据 进行 聚 类 ， 需 要 像 第 8 章 一 样 准备 包含 路 透 
社 本 地 文本 数据 的 SeauenceFile 文 件 ， 并 将 它 复制 到 HDFS 中 : 

bin/hadoop dfs -put <path-to>/reuters-seqfiles reuters-seqfiles 
利用 上 述 seauenceFile 作 为 输入 ， 就 可 以 在 集群 上 运行 基于 词典 的 向 量化 工具 然后 运行 
k-means 聚 类 算法 。 

任意 MapReduce 作 业 都 使 用 hadoop jaz 命 令 来 执行 。Mahout 将 所 有 的 示例 类 文件 及 其 依赖 
关系 都 打包 放 在 examples/target/mahout-examples-0.4-SNAPSHOT.job 下 的 单个 JAR 文 件 中 。 要 在 本 
地 Hadoop 集 群 下 运行 词典 向 量化 工具 来 处 理 路 透 社 SequenceFile 输 入 文件 ， 只 需要 简单 地 对 
Mahout 作 业 文 件 运 行 如 下 hadoop jar 命 令 : 


bin/hadoop jar mahout-examples-0.5-job.jar \ 
org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles \ 
-ow -i reuters-seqfiles -o reuters-vectors 


好 ， 就 是 这 样 ， 聚 类 算法 在 本 地 Hadoop 集 群 下 运行 。 如 果 使 用 默认 的 Hadoop 配 置 ， 并 且 如 
果 系 统 至 少 是 双核 处 理 器 ， 那 么 就 有 两 个 Mapper 并 行 执行 ， 其 中 每 个 Mapper 运 行 在 一 个 核 上 。 
这 可 以 在 JobTracker 的 面板 ( 地址 为 :http://localhost:50030 ) 上 查看 ， 具 体 的 结果 如 图 11-1 所 示 。 
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lappy Hadoop Map/Reduce Administration 
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图 11-1 一 个 典型 的 Hadoop MapReduce JobTracker 的 页 面 截 图 。 可 以 通过 访问 本 地 
Hadoop 集 群 上 的 http://localhost:50030 地 址 来 访问 该 页 


11.1.2 ”定制 Hadoop 配 置 


如 果 有 两 个 核 , 那么 Hadoop 立 马 就 可 以 将 聚 类 的 本 地 运行 速度 提高 到 两 倍 , 关于 本 地 运行 在 
第 8 到 第 10 章 都 有 所 介绍 。 如 果 计 算 机 上 有 不 止 两 个 核 ， 可 以 修改 Hadoop 配 置 文件 将 Mapper 和 
Reducer 任 务 的 数目 设置 成 一 个 更 高 的 值 ， 这 样 可 以 提高 计算 的 整体 运行 速度 。 安 装 后 的 Hadoop 
中 有 mapred-site.xml 配 置 文件 ， 需 要 根据 CPU 核 的 数 日 ， 将 其 中 的 mapred.map.tasks 和 
mapred.reduce.tasks 配 置 项 修改 为 合适 的 值 。 

每 增加 一 个 核 ， 并 行程 度 就 增加 ， 运 行 时 间 就 会 减少 。 一旦 并 行 任务 数 达到 单 节点 的 峰值 ， 
那么 再 增加 任务 就 会 严重 降低 处 理 的 性 能 。 进 一 步 扩展 的 唯一 办 法 就 是 拥有 配置 相同 的 多 个 节 
点 ， 即 一 个 完整 的 分 布 式 Hadoop 集 群 。 

提示 可 以 在 Hadoop 网 站 的 如 下 地 址 http:/hadoop.apache.org/docs/currenthadoop-project- 
disthadoop-common/ClusterSetup.html 找 到 一 个 一 步 步 建立 分 布 式 Hadoop 集 群 的 快速 入 
门 。 在 0.20.2 及 更 高 的 Hadoop 版 本 中 ， 配 置 文件 被 分 成 conf 目 录 下 的 三 个 文件 : 
core-site.xml 、hdfs-site.xml 和 mapred-site.xml。 默 认 的 配置 值 分 别 在 core-default.xml、 
hdfs-default.xml 及 mapred-default.xml 中 。 上 默认 文件 给 定 的 参数 可 以 被 *.site.xml 文 件 中 的 值 
覆盖 。 调 整 MapReduce 参 数 通 常 涉及 对 mapred-site.xml 文 件 的 编辑 。 
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在 分 布 式 Hadoop 集 群 下 运行 聚 类 代码 与 在 单 节 点 下 没有 什么 不 同 。bin/hadoop 脚 本 能 够 在 集 
群 中 启动 各 种 作业 ,这 些 作业 可 以 来 自 名 字 节 点 、 从 属 节点 或 者 任意 可 以 访问 名 字 节 点 的 计算 机 。 
唯一 的 要 求 就 是 脚本 在 运行 时 要 通过 HADOOP_CONF_DIR 环 境 变 量 访问 正确 的 配置 文件 。 

使 用 Mahout 启 动 脚本 在 Hadoop 集 群 下 执行 作业 

Mahout 也 提供 了 一 个 和 Hadoop 启 动 脚 本 非常 像 的 bin/mahout 脚 本 来 启动 聚 类 作业 。 在 前 面 章 
节 中 , 该 脚本 被 广泛 用 于 以 单 进程 作业 的 方式 启动 聚 类 过 程 。 通 过 设置 HApooP_HOME 和 HADOOP_ 
CONEF_DIR 环 境 变量 ， 上 述 脚本 可 以 用 于 在 Hadoop 集 群 上 启动 任意 Mahout 算 法 。 该 脚本 将 自动 读 
取 Hadoop 集 群 的 配置 文件 并 在 集群 下 启动 Mahout 作 业 。 

一 个 典型 的 输出 结果 如 下 所 示 : 


export HADOOP_HOME=~/hadoop/ 
export HADOOP_CONF_DIR=$HADOOP_HOME/conf 
bin/mahout kmeans -h 


running on hadoop, using HADOOP_HOME=/Users/username/hadoop and 
HADOOP_CONF_DIR=/Users/username/hadoop/conf 


Mahout 启 动 脚本 通过 使 用 正确 的 集群 配置 文件 在 内 部 调用 了 Hadoop 的 启动 脚本 , 整个 过 程 如 图 
11-2 所 示 。 在 Mahout 中 , 启动 脚本 是 一 种 在 本 地 或 者 分 布 式 Hadoop 集 群 下 启动 算法 的 最 简单 的 方式 。 


mahout-examples-X X-job.jar ae 
co» 


Hadoop 集 群 


If HADOOP_CONF_DIR 
&& HADOOP_HOME set 


bin/mahout 


False mvn exec:java 
ae 


mahout-examples-X X-job.jar 


图 11-2 ”利用 Mahout 脚 本 启动 的 两 种 作业 执行 方式 的 逻辑 框图 


到 这 里 要 向 你 表示 祝贺 ,因为 你 已 经 在 Hadoop 下 运行 了 一 个 聚 类 作业 。 如 果 感 兴趣 的 话 , 你 
可 以 用 多 组 参数 进行 实验 来 调节 聚 类 的 质量 。 接 下 来 , 我 们 将 会 看 到 如 何 通过 调节 配置 来 获得 更 
高 的 聚 类 吞吐 量 和 性 能 。 
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11.2 聚 类 性 能 调 优 


Mahout 中 的 聚 类 算法 被 设计 成 并 行 执行 。 尽 管 不 同 算法 之 间 有 差别 , 但 它们 在 某 个 方面 是 极 
其 类 似 的 ， 即 在 每 个 Mapper 中 它们 都 从 sequenceFile 文 件 并 行 的 读 入 向 量 。 

案 类 算法 中 的 很 多 操作 属于 计算 密集 型 ， 这 意味 着 这 些 操作 ， 如 向 量 序列 化 、 反 序列 化 、 距 
离 计 算 等 都 会 使 CPU 满 负 荷 运行 。 另 一 方面 ， 有 些 操作 属于 IO 密集 型 ， 比 如 通过 网 络 将 中 心 向 
量 传 到 每 个 Redaucer。 为 提高 聚 类 性 能 ,需要 理解 解决 上 述 两 类 性 能 瓶颈 的 一 些 技巧 。 下 面 将 会 
看 到 ，Mahout 中 的 多 个 参数 是 如 何 基于 输入 数据 的 类 型 产生 CPU 、 磁 盘 或 网 络 瓶颈 的 。 

为 参考 起 见 ， 图 11-3 列 出 了 k-means 聚 类 算法 的 原理 示意 图 。 其 他 像 模 糊 k-means、 狄 利克 雷 
及 LDA 聚 类 算法 的 架构 都 和 k-means 类 似 ， 因 此 对 k-means 的 优化 也 适用 于 这 些 算法 。 


并 行 Mapper 并 行 Reducer 


K-Means in MapReduce 


每 个 Mapper 启 动 反复 运行 直至 收 伊 
时 读 取 中 心 向 量 


每 个 Reducer 从 每 个 Mapper 
获得 簇 内 所 有 点 的 部 分 和 ， 
并 重新 计算 中 心 


chunk-n 


每 个 Mapper 为 
一 个 向 量 计算 
最 近 的 中 心 向 量 


图 11-3 ”以 MapReduce 作 业 方 式 迭 代 运 行 的 k-means 聚 类 原理 示意 图 
聚 类 性 能 是 输入 数据 的 某 个 函数 。 为 调节 性 能 ,需要 分 析 输 入 的 不 同 分 布 并 确定 在 使 用 某 些 


聚 类 参数 时 可 能 遇 到 的 性 能 缺陷 。 下 面 我 们 首先 看 看 如 何 减 少 CPU 瓶 颈 甚 至 在 某 些 情况 下 完全 避 
免 这 种 瓶颈 。 


11.2.1 在 计算 密集 型 操作 中 避免 性 能 缺陷 


当 使 用 频繁 的 函数 开始 变 慢 时 , CPU 的 性 能 会 下 降 。 在 聚 类 中 , 距离 计算 是 计算 密集 型 操作 ， 
因此 该 计算 越 快 ， 整 个 作业 也 就 越 快 。 当 跟踪 聚 类 中 的 CPU 相关 性 能 时 ， 必 须 记 住 如 下 原则 。 
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1. 采用 合适 的 向 量 表示 
在 Mahout 的 所 有 3 个 Vector 类 中 ，DenseVector 通 常 是 最 快 的 一 个 。 可 以 快速 访问 该 向 量 
中 的 任意 一 个 元 素 ， 也 可 以 高 效 地 顺序 访问 所 有 元 素 。 但 是 如 果 用 DenseVector 表 示 稀 玖 向 量 ， 
则 会 导致 十 分 严重 的 性 能 问题 。 当 用 DenseVector 表 示 一 个 存在 很 多 零 元 素 的 向 量 时 ， 会 浪费 
很 多 存储 的 空间 , 而 这 些 空间 在 稀 玻 表示 下 是 根本 不 需要 的 。 这 也 意味 着 很 多 数据 做 了 没有 必要 
的 序列 化 处 理 ， 并 且 在 希望 忽略 零 元 素 的 环境 下 遍历 了 很 多 零 元 素 。 
举 个 例子 ,比如 你 在 对 十 分 稀 蚊 的 文本 向 量 数据 ( 非 零 元 素 大 概 占 整 个 向 量 维度 的 百 分 之 一 ) 
进行 聚 类 。 那 么 在 本 地 系统 上 运行 时 ， 使 用 spareVector 的 聚 类 速度 会 是 使 用 penseVector 的 
两 倍 ， 而 在 分 布 式 系统 上 运行 , 前 者 要 比 后 者 快 10 倍 。 分 布 式 聚 类 之 所 以 会 来 带 来 额外 的 性 能 提 
高 是 由 于 用 DensevVector 表 示 时 传输 了 不 需要 传输 的 0 字 节 。 
因此 ， 通 常 最 好 将 数据 表示 成 SparseVector， 这 是 因为 即使 有 些 稀 玻 ，SparseVector 表 
示 也 能 大 幅度 节省 存储 、 反 序列 化 和 网 络 传输 带 来 的 开销 。 
2. 使 用 更 快 的 距离 测度 方法 
聚 类 算法 频繁 计算 距离 , 因此 实现 快速 的 距离 计算 相当 关键 。 距 离 计算 速度 的 提高 会 直接 影 
响 算法 整体 性 能 。 
如 果 你 在 实现 自己 的 距离 测度 方法 ,请 遵从 下 面 的 最 佳 实践 经 验 。 
口 避免 复制 或 者 实例 化 一 个 新 的 Vector 对 象 。Vector 是 重量 级 的 Java 对 象 ， 对 它们 进行 复 
制 会 严重 损害 性 能 。 

口 如 果 距 离 测 度 只 需要 非 零 元 素 ， 那 么 就 应 该 避免 对 所 有 元 素 遍 历 。 此 时 使 用 
Vector. iterateNonZero () (tH AdEVector.iterator(). 

O 使 用 Vector.assign() 或 Vector.aggregate() 方法 来 高 效 遍 历 和 修改 向 量 。 通 过 附件 
B 可 以 了 解 更 多 关于 向 量 的 知识 。 

3. 根据 距离 计算 使 用 sparsevector 类 型 

有 两 种 稀 跑 向 量 的 实现 ， 最 好 使 用 适合 距离 计算 的 实现 。RandomAccessSparseVector 擅 
长 于 随机 查找 ， 而 SequentialAccessSparseVector 擅 长 于 快速 顺序 访问 。 

ON, 计算 余弦 相似 度 需要 很 多 向量 点 积 运 算 , 这 需要 在 两 个 向 量 上 依次 遍历 元 素 。 实 现代 
码 需 要 将 两 个 向 量 匹 配 位 置 上 的 值 相 乘 。 很 自然 地 ， 对 于 这 种 距离 计算 中 的 顺序 访问 模式 
SequentialAccessSparseVector 是 最 理想 的 ， 此 时 它 会 远 远 快 于 RandomAccessSparse- 


Vector。 将 所 有 文档 向 量 保存 为 顺序 格式 会 给 距离 计算 带 来 巨大 提升 从 而 提高 聚 类 的 整体 性 能 。 


提示 Mahout utils 包 中 有 一 个 称 为 VectorBenchmarks 的 工具 类 。 它 在 密集 型 、 随 机 访问 型 和 
顺序 访问 型 向 量 上 使 用 不 同类 型 的 向 量 运算 从 而 对 比 它们 的 速度 。 如 果 你 定制 的 距离 测 
度 方 法 需要 很 多 某 种 类 型 的 向 量 运算 ， 那 么 就 可 以 使 用 该 工具 类 来 寻找 某 个 稀疏 水 平 上 
执行 该 运算 最 快 的 向 量 类 型 。 在 mahou-utils 模 块 的 org.apache.mahout/benchmark 包 中 可 以 
找到 这 个 工具 。 - 
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11.2.2 在 IO 密集 型 操作 中 避免 性 能 缺陷 


通常 影响 MO 性 能 最 大 的 是 程序 读 取 和 写 和 的 数据 量 。 在 Hadoop 作 业 下 ， 这 些 读 / 写 操作 大 部 
分 是 顺序 的 。 减 少 写 和 人 的 字 节 量 能 够 极 大 地 提高 整体 的 聚 类 性 能 。 为 降低 VO 瓶 颈 ， 必 须 牢 记 如 
下 的 几 条 原则 。 

1. 使 用 合适 的 向 量 表示 

这 一 点 很 明显 。 正 如 前 面 解 释 的 那样 ， 你 永远 不 要 将 稀 玻 向 量 保存 成 penseVector 对 象 。 
这 样 做 会 使 磁盘 存储 量 极度 膨胀 从 而 导致 聚 类 算法 的 磁盘 和 网 络 IO 瓶 颈 。 

2. 使 用 HDFS 副 本 

HDFS 上 的 任 一 文件 默认 情况 下 都 会 在 集群 的 不 同 节点 上 保存 有 三 个 副本 。 这 样 做 能 够 防止 
某 个 节点 上 的 副本 丢失 , 男 外 它 还 能 提高 性 能 。 如 果 数 据 只 存放 在 一 个 节点 上 ,那么 所 有 需要 这 
份 数据 的 的 Mapper 和 Reducez 都 会 访问 这 个 节点 。 这 就 会 造成 访问 瓶颈 。 副本 能 够 允许 HDFS 
在 不 同 服务 器 上 保存 文件 块 , 这 样 就 可 以 让 Hadoop 选 择 计算 的 初始 化 节点 , 从 而 能 够 解除 上 述 网 
络 LO 瓶颈 。 继 续 增加 副本 数目 潜在 上 能 够 进一步 解除 上 述 瓶 了 硕 ， 但 是 这 也 意味 着 需要 更 多 的 
HDFS 存 储 开销 。 只 有 在 由 于 副本 数目 不 够 导致 瓶颈 的 情况 下 才 考 虑 这 样 做 。 

3. 减少 簇 的 数目 

在 聚 类 中 ， 秘 通常 表示 为 很 大 的 密集 向 量 ， 每 个 向 量 都 消耗 相当 大 的 存储 空间 。 如 果 聚 类 作 
WAIN SIR ATA Ck) 较 多 ， 那 么 这 些 癌 量 就 会 通过 网 络 从 Mapper 传 输 给 Reducer。 如 果 
较 小 , 那么 就 可 以 减少 网 络 WO 的 开销 。 同时, 这 样 也 会 减少 k-means 和 模糊 k-means 算法 中 距离 计 
算 的 开销 ， 而 原来 每 个 簇 中心 的 距离 计算 开销 都 会 按 磁盘 上 点 的 数目 来 增加 。 

当 必 须要 将 数据 聚 成 较 多 数目 的 徐 时 ,可 以 将 数据 放 在 Hadoop 上 并 增加 更 多 的 机 器 来 让 它 自 
己 扩展 。 但 是 可 以 通过 使 用 一 个 两 步 的 批 聚 类 方法 将 距离 计算 和 聚 类 时 间 减 少 一 个 数量 级 。 这 种 
做 法 能 够 加 快 极 大 规模 数据 集 如 维基 百科 的 聚 类 速度 。 

还 有 一 种 做 法 , 我 们 可 以 探索 更 好 的 增 量 式 聚 类 方法 来 减少 聚 类 算法 需要 检查 的 数据 量 。 这 
种 做 法 有 助 于 在 线 聚 合 器 〈 如 新 闻 网 站 )， 当 新 闻 报 道 到 来 时 自动 将 它们 加 到 某 个 复 中 。 下 一 节 
当中 将 会 解释 上 述 两 种 做 法 。 


11.3 ” 批 聚 类 及 在 线 聚 类 


我 们 重新 回 到 第 9 章 提 到 的 AllMyNew.com 在 线 新 闻 门 户 网 站 。 我 们 发 现 该 网 站 的 相关 新 闻 功 
能 的 实现 可 以 看 成 是 一 个 简单 的 聚 类 问题 。 但 是 聚 类 却 得 不 到 我 们 想 要 的 最 终 输 出 结果 。 假 设 该 
门户 有 大 约 100 万 篇 新 闻 报 道 。 我 们 要 做 的 是 产生 最 多 100 篇 文档 构成 的 徐 , 否则 相关 文章 的 列表 
太 大 不 可 用 。 但 这 也 意味 着 需要 产生 10 000 个 簇 。 

这 不 是 解决 上 述 问 题 的 好 办 法 。 尽 管 Hadoop 可 以 允许 我 们 向 上 扩展 来 完成 上 述 任 务 ,但 是 会 
浪费 大 量 的 CPU 和 磁盘 , 而 这 些 都 是 需要 花 钱 的 。 一 个 更 好 的 办 法 是 将 所 有 文章 划分 成 100 个 大 艇 ， 
然后 ， 对 每 个 大 约 10 000 篇 文章 的 徐 ， 进 一 步 将 它 聚 成 100 个 更 小 的 艇 ,这 个 过 程 如 图 11-4 所 示 。 
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第 一 阶段 k-means 聚 类 


10 000 44% 


第 二 阶段 100 个 独 


立 的 kmeans 聚 类 


=> 


图 11-4 采用 两 步 方式 来 应 用 k-means 算法 。 一 个 拥有 10 000 个 簇 的 单个 大 MapReduce 
过 程 将 有 Nx106x104 次 距离 计算 ， 其 中 N 是 迭代 的 次 数 。 男 一 方面 ， 将 整个 问 
题 层次 化 为 两 层 之 后 只 有 N1x106x102+N2x104x102x102 次 距离 计算 ， 整 个 计 
算 次 数 差不多 减少 了 100 倍 


在 过 去 的 示例 中 ,我们 一 次 性 的 对 所 有 文章 聚 类 ， 这 叫 批 聚 类 (batch clustering ) RARR 
类 (offline clustering )。 但 是 随 着 新 闻 门 户 中 新 文章 的 不 断 到 达 ， 这 些 新 文章 也 需要 被 聚 类 。 如 
果 只 是 因为 这 些 新 文章 就 要 重新 反复 运行 批 聚 类 作业 的 话 , 那 代 价 就 太 昂贵 了 。 即 使 这 些 批 聚 类 
作业 每 个 小 时 运行 一 过 , 那 在 一 个 小 时 内 , 我 们 还 是 无 法 识别 与 新 文章 相关 的 文章 。 这 显然 不 是 
我 们 想 要 的 结果 。 

下 面 介 绍 在 线 聚 类 〈online clustering ) 技术 ， 它 的 目标 是 在 对 已 有 对 象 聚 类 后 对 新 对 象 高 效 
RA 


11.3.1 案例 分 析 : 在 线 新 闻 聚 类 


这 里 的 在 线 聚 类 并 非 真 的 在 线 或 者 真 的 即时 聚 类 。 有 一 些 对 数据 流 直接 进行 聚 类 的 算法 , 但 
是 它们 在 扩展 时 会 有 问题 。 而 我 们 考虑 的 是 下 面 的 技术 。 

口 同 前 面 讨论 的 那样 ， 我 们 对 100 万 篇 文章 聚 类 ， 并 保存 所 有 簇 的 中 心 。 

口 对 每 篇 新 文档 , 我 们 周期 性 地 采用 canopy 聚 类 方法 将 它 分 配 到 离 它 最 近 的 复 中 , 计算 时 使 
用 一 个 非常 小 的 距离 阔 值 。 这 可 以 保证 和 先前 主题 有 关 的 文章 会 和 该 主题 关联 并 立即 显 
示 在 网 站 上 。 这 些 归 入 已 有 艇 的 文章 会 被 从 新 文档 列表 中 删除 。 

口 所 有 和 璋 余 的 不 能 归 入 已 有 簇 的 文章 形成 新 的 多 个 canopy, 这 些 canopy 代 表 了 新 闻 中 已 经 出 
现 但 是 与 过 去 的 任何 文章 都 不 匹配 或 匹配 度 很 小 的 主题 。 
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口 利用 这 些 新 canopy 的 中 心 , 对 与 已 有 复 不 相关 的 文章 进行 聚 类 , 并 将 这 些 临 时 的 簇 中 心 加 
入 到 中 心 列表 中 。 
口 不 太 频 繁 地 执行 完整 的 批 聚 类 算法 来 对 全 部 文档 集合 进行 聚 类 。 这 样 做 的 时 候 ， 将 所 有 
已 有 的 得 中 心 作为 算法 输入 从 而 聚 类 算法 可 以 更 快 地 收敛 。 
这 里 的 关键 是 确保 增 量 式 canopy 聚 类 能 够 尽 可 能 快 地 完成 , 从 而 用 户 能 够 在 新 闻 报 道 发 布 数 
分 钟 之 内 就 能 看 到 相关 文档 簇 。 通 过 一 个 专用 节点 很 容易 实现 这 一 点 。 另 一 种 做 法 是 将 报道 的 发 
布 时 间 延 迟 几 分 钟 直到 相关 文档 艇 产生 为 止 。 
上 面 这 个 例子 表明 , 某 个 解决 方案 可 能 会 很 容易 耗 尽 所 有 的 资源 , 能 扩展 也 不 意味 着 就 应 该 
使 用 大 量 资源 。 我 们 也 可 以 在 一 个 专用 的 数 千 节 点 的 集群 上 运行 完整 的 聚 类 算法 , 但 是 这 样 做 会 
浪费 钱 。 稍 微 用 点 聪明 才智 就 可 以 得 到 一 个 更 便宜 也 更 快 的 解决 方案 。 


11.3.2 ”案例 分 析 : 对 维基 百科 文章 聚 类 


维基 百科 的 文章 每 晚 都 会 导出 为 XML 文件 并 可 从 如 下 链接 下 载 : http://dumps.wikimedia. 
org/enwiki/。 这 是 一 个 神奇 的 数据 集 。 由 于 是 人 工 编辑 和 组 织 的 ， 很 多 文章 在 维基 百科 中 仍然 没 
有 分 组 或 者 进行 了 错误 分 组 。 你 可 以 尝试 在 这 些 文章 上 运行 聚 类 算法 来 获取 相关 文档 , 这 没准 还 
能 帮助 编辑 人 员 在 维基 百科 网 站 上 将 相关 文章 分 组 呢 ! 

在 尝试 对 文章 聚 类 之 前 ， 需 要 从 XML 格式 的 文件 中 提取 文档 和 向 量 。 幸 运 的 是 ，Mahout 中 
有 一 个 维基 百科 数据 集 的 创建 类 , 它 可 以 读 人 XML 格式 并 以 sequenceFile 格 式 输出 每 篇 单独 的 
文章 。 对 于 本 实验 的 目的 而 言 ， 我 们 将 提取 科技 分 类 下 的 所 有 文档 。 

首先 , 从 前 面 提 到 的 网 站 下 来 最 新 的 pages-articles.xml.bz2 文 件 。 将 该 文件 解压 到 本 地 目录 然 
后 上 传 到 HDFS。 假 设 Hadoop 的 环境 变量 已 经 设置 好 ， 运 行 如 下 的 维基 百科 提取 命令 : 


echo "science" > categories.txt 
bin/mahout seqwiki -c categories.txt -i articles.xml \ 
-o wikipedia-seqfiles -e 


上 述 命 令 会 从 XML 文 件 中 提取 那些 维基 百科 分 类 与 science 精 确 匹 配 的 文章 然后 将 这 些 文 
章 写 到 sequenceFile 中 。 对 于 该 输入 可 以 运行 SparseVectorsFromSequenceFiles 作 业 
来 创建 维基 百科 的 TF-IDF 向 量 。 然 后 ， 在 其 上 可 以 运行 任意 聚 类 算法 。 整 个 过 程 会 持续 一 段 
时 间 。 

一 旦 成 功 运行 聚 类 算法 之 后 , 你 可 能 想 通过 实验 来 观察 比如 向 量 表示 对 聚 类 算法 的 影响 。 在 
词典 向 量化 工具 中 使 用 -seq 标 志 将 向 量 创建 为 SequentialAccessSparseVector。 这 将 会 比 默 
认 创 建 的 RandomAccessSparseVector 要 快 。 

一 旦 有 足够 的 信心 对 Wikipedia 样 本 集 肾 类 ， 那 么 通过 如 下 命令 提取 所 有 数据 并 对 它 向 量化 : 


bin/mahout seqwiki -all -i articles.xml -o wikipedia-seqfiles 


如 果 不 访问 一 个 强大 的 Hadoop 集 群 , 那么 上 述 命令 会 在 单机 上 执行 大 约 一 整 天 。 另 一 种 做 法 
是 在 云 上 运行 ， 具 体 做 法 将 在 下 面 看 到 。 
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在 亚马逊 弹性 MapReduce 下 运行 维基 百科 聚 类 

一 种 比较 便宜 的 实现 Mahout 的 方法 是 从 类 似 亚 马 逊 弹性 MapReduce ( Amazon Elastic 
MapReduce, EMR ) 云 服 务 中 购买 Hadoop 集 群 时 间 。 本 书 的 6.6 节 给 出 了 如 何 访问 该 资源 的 快速 
方法 。 

如 果 你 觉得 亚马逊 弹性 MapReduce 服 务 还 不 错 的 话 ， 可 以 像 下 面 这样 运 行 Mahout 算 法 。 

(1) 将 Mahout 作 业 文 件 (mahout-examples-0.5-job.jar ) 上 载 到 一 个 Amazon S3 bucket. 

(2) JAR 文 件 出 填 上 *-job.jar 文 件 的 目录 。 

(3) 为 需要 运行 的 算法 的 驱动 类 指定 完整 的 类 名 及 其 参数 ， 该 类 的 类 名 或 许 是 org .apache. 
mahout.clustering.kmeans.KMeansDrivero 

(4) 指定 存储 在 S3 bucket 中 的 维基 百科 向 量 文件 的 完整 输入 路 径 以 及 簇 的 完整 输出 路 径 。 

(5) 指定 其 他 需要 的 MapReduce 参 数 ， 比 如 机 器 的 数目 。 记 住 ， 每 个 计算 单元 按 小 时 计 费 ， 
因此 大 规模 集群 很 快 就 会 花费 很 多 钱 。 

(6) 运行 作业 。 

你 可 以 通过 上 传 SequenceFile 并 运行 SparseVectorsFromSequenceFile 类 ， 按照 相同 
流程 来 直接 使 用 EMR 服 务 生 成 向 量 。 

在 写 这 本 书 的 时 候 , 用 了 8 节点 的 集群 大 概 1 个 小 时 来 将 维基 百科 的 SequenceFile 转 换 成 向 
量 。 限 类 的 时 间 高 度 依赖 于 初始 的 中 心 、 距 离 计 算 方 法 和 簇 的 数目 ， 当 然 也 取决 于 计算 所 用 的 机 
器 数目 。 要 永远 记 住 ， 计 算 不 是 免费 的 。 
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在 这 一 章 里 ， 我 们 简单 看 了 看 Hadoop 集 群 以 及 如 何在 它 上 面 运行 聚 类 作业 。 我 们 还 讨论 了 
Mahout 启 动 脚 本 及 其 两 种 操作 模式 。 

我 们 讨论 了 聚 类 性 能 中 的 多 个 问题 ， 并 分 析 了 可 以 缓解 聚 类 时 CPU 和 IO 瓶颈 的 多 项 技术 。 
正确 的 向 量 表示 和 优化 的 距离 算法 是 高 性 能 聚 类 应 用 的 关键 。 

我 们 也 将 上 述 知识 用 于 一 个 假想 的 新 闻 聚 合 门户 一 一 AllMyNews.com 的 伪 在 线 聚 类 引擎 的 
实现 中 。 加 入 一 点 点 精心 设计 之 后 ,通过 使 用 多 种 技术 的 组 合 ， 整 个 大 的 聚 类 问题 被 划分 成 多 个 
简单 快速 的 小 问题 , 这 样 系统 中 就 可 以 达到 近似 实时 的 相关 文档 聚 类 效果 。 为 突出 Mahout 的 聚 类 
扩展 能 力 , 我 们 试图 对 一 个 当前 最 大 的 公开 数据 集 即 英文 的 维基 百科 进行 聚 类 。 由 于 整个 过 程 很 
慢 ,我 们 快速 讨论 了 如 何 通过 使 用 亚马逊 弹性 MapReduce 服 务 云 来 进行 多 节点 聚 类 的 过 程 。 

通过 上 述 案 例 ， 可 以 学 到 在 Hadoop 集 群 上 运行 Mahout 及 对 其 进行 扩展 的 知识 。 本 书 到 达 本 
章 这 一 部 分 的 旅程 并 不 简单 。 我 们 一 开始 在 第 8 章 介 绍 了 在 平面 上 对 点 进行 聚 类 的 基本 知识 ， 那 
里 我 们 学 到 了 向 量 及 距离 计算 方法 。 然 后 我 们 尝试 了 Mahout 中 的 多 种 算法 并 试图 将 它们 应 用 于 实 
际 案例 中 。 我 们 从 小 规模 非 分 布 式 计算 逐渐 过 渡 到 大 规模 分 布 式 计算 。 同 时 ， 你 也 学 会 了 如 何 调 
整 算法 的 速度 和 质量 。 下 一 章 ， 即 第 12 章 ， 你 将 把 学 到 的 知识 应 用 到 实际 案例 中 。 


ae 
聚 类 的 实际 应 用 


本 章 概要 

口 将 有 相同 兴趣 的 Twitter 用 户 聚 类 到 一 起 
口 利用 聚 类 为 Last.Fm 上 的 艺术 家 推荐 标签 
口 为 网 站 构建 相关 帖子 的 功能 


或 许 你 拿 起 这 本 书 是 想 学 习 和 理解 聚 类 是 如 何 解 决 实际 问题 。 FES Ak, 我 们 主要 集中 探讨 
了 路 透 社 新 闻 数 据 集 上 的 聚 类 问题 ， 这 个 数据 集 大 约 有 20 000 篇 文档 ， 每 篇 文档 大 约 有 1000 到 
2000 词 。 该 数据 集 对 于 Mahout 来 说 并 不 足以 构成 挑战 ， 无 法 显示 出 Mahout 的 扩展 能 力 。 本 章 当 
中 ， 我 们 主要 使 用 聚 类 算法 来 解决 三 个 大 得 多 的 数据 集 上 的 聚 类 问题 。 

首先 ， 我 们 尝试 使 用 来 自 Twitter (http:/twitter.com ) 的 公开 推 文 ， 通 过 聚 类 寻找 推 文 内 容 相 
似 的 用 户 。 其 次 ， 我 们 会 考察 一 份 来 自 Lastfm (http:Wlastfm ) 的 数据 集 ， 该 网 站 是 一 个 流行 的 
互联 网 电台 , 我 们 利用 这 些 数据 来 产生 相关 的 标签 。 最 后 , 我 们 使 用 一 个 著名 技术 论坛 网 站 Stack 
Overflow ( http://stackoverflow.com ) 导出 的 全 部 数据 ， 该 数据 包括 500 000 个 问题 和 200 000 个 用 
户 。 我 们 利用 该 数据 来 实现 网 站 的 相关 特性 功能 。 

第 一 个 问题 是 通过 对 Twitter 的 推 文 聚 类 来 找到 相似 用 户 。 


12.1 £I Twitter 上 的 相似 用 户 


Twitter 是 一 个 提供 微 博 服务 的 社交 网 站 , 用户 可 以 公开 发 布 简短 的 消息 , 称 为 推 文 (tweet )。 
这 些 推 文 最 多 包含 140 个 字符 。 推 文 一 旦 发 布 ， 它 就 会 出 现在 该 推 文 作者 的 所 有 粉丝 的 订阅 信息 
流 中 ， 并 且 该 推 文 在 Twitter 网 站 公开 可 见 。 这 些 推 文 有 时 会 包含 某 些 特殊 格式 的 关键 词 ， 例 如 
#Obama， 或 者 直接 通过 @ 符 号 引入 其 他 用 户 的 名 字 ， 如 eseanowen。 

由 于 Twitter 新 的 服务 条 款 不 允许 公开 发 布 数据 集 ， 因 此 需要 你 自己 来 准备 这 些 数据 。 在 本 书 
的 源码 当中 ， 有 一 个 称 为 TwitterDownloadezr 的 类 能 够 从 Twitter 上 获取 100 000 条 推 文 (可 以 在 
源码 中 修改 这 个 数字 ) 并 写 到 一 个 文件 中 ， 该 文件 可 以 用 于 后 续 的 分 析 过 程 。 获 得 100 000 条 推 
文大 约 需要 两 小 时 。 
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注意 要 运行 上 述 程序 ， 必 须要 在 https://dev.twitter.com/apps 注 册 你 的 应 用 ， 并 从 Twitter 获 得 一 
个 认证 密 钥 ， 然 后 按照 源码 中 的 描述 将 该 密 钥 值 写 到 程序 中 。 在 运行 时 不 要 忘 了 加 上 
-Dfile.encoding=UTF-8 选 项 ， 否 则 会 丢失 所 有 非 ASCII 的 字符 。 


12.1.1 数据 预 处 理 及 特征 加 权 


我 们 需要 对 上 述 数据 进行 预 处 理 ， 将 其 换 成 Mahout 支 持 的 格式 。 首 先 需 要 将 其 转换 成 可 
以 被 词典 向 量化 工具 读 取 的 SequenceFile 格 式 。 然 后 ， 再 利用 TF-IDF 权 重 计算 ,将 其 转换 
成 向 量 。 

词典 向 量化 工具 期 望 的 输入 包含 一 个 Text 类 型 的 键 和 值 。 这 里 的 键 将 是 Twitter 的 用 户 名 , 而 
值 将 是 该 用 户 发 表 的 所 有 推 文 的 拼接 。 

MapRuduce 作 业 很 适合 完成 上 述 输入 的 准备 工作 。Mapper 读 入 数据 中 的 每 一 行 ， 即 通过 制 
表 符 分 隔 的 用 户 名 、 时 间 惟 和 推 文 。 然 后 将 用 户 名 作为 键 ， 推 文 作 为 输出 。Redaucez 接 收 来 自 同 
一 用 户 的 所 有 推 文 ， 然 后 把 它们 连接 成 一 个 字符 串 ， 并 将 它 作为 值 输出 ， 此 时 键 仍 然 为 用 户 名 。 
上 述 结果 会 被 写 人 到 sequenceFile 文 件 中 。 

上 述 过 程 中 的 Mapper、Reducer、Configuration 类 及 在 Hadoop 和 集群 中 调用 它们 的 一 个 作 
业 均 列 在 代码 清单 12-1 和 代码 清单 12-2 中 。 其 中 MapReduce 类 是 一 个 通用 的 按 字段 分 组 的 


Mapper. 


代码 清单 12-1 按 字 段 分 组 的 Mapper 


public class ByKeyMapper extends Mapper<LongWritable,Text,Text,Text> { 
private Pattern splitter = Pattern.compile("\t"); 
private int selectedField = 1; // tweet 
private int groupByField = 0; // username 


@Override 
protected void map(LongWritable key, Text value, 

Context context) throws IOException, 

InterruptedException { 利用 正则 表达 式 
String[] fields = splitter.split(value.toString()); 对 行进 行 分 割 
if (fields.length - 1 < selectedField | | 

fields.length - 1 < groupByField) { 


context.getCounter ( a 对 行 错误 计数 
"Map", "LinesWithErrors") .increment (1) ; 
return; 


} 


String oKey = fields[groupByField]; 


String oValue = fields[selectedField]; n 输出 用 户 名 和 推 文 


context.write(new Text(oKey), new Text(oValue) ) ; 
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代码 清单 12-2” 按 字段 分 组 的 Reducer 


public class ByKeyReducer extends Reducer<Text,Text,Text,Text> { 
@Override 
protected void reduce(Text key, 
Iterable<Text> values, 
Context context) { R 
StringBuilder output = new StringBuilder (); | 读 入 用 户 的 推 文 
for (Text value : values) { 


output.append(value.toString()).append(" "); "| 产生 拼接 的 字符 串 
} 


context.write(key, new Text ( 
output.toString().trim())); a 
l 5 iia ü 输出 拼接 后 的 字符 串 
} 
一 且 作 业 运 行 ,用户 的 推 文 就 会 被 拼接 成 文档 大 小 的 字符 串 并 写 人 到 sequenceFile 中 。 然 
后 , 该 输出 结果 会 被 转换 成 TF-IDF 向 量 。 在 运行 基于 词典 的 向 量化 工具 之 前 , 我 们 值得 花 一 些 时 


间 来 更 好 地 了 解 Twitter 数 据 并 识别 一 些 简单 有 用 的 改进 点 ， 这 些 点 有 助 于 特征 选择 和 加 权 。 


12.1.2 ”避免 特征 选择 中 的 常见 陷阱 


TF-IDF 是 一 种 非常 有 效 的 特征 权重 计算 方法 , 前 面 我 们 已 经 用 过 多 次 。 如 果 将 它 应 用 于 单独 

3 一 条 推 文 ， 由 于 文本 最 多 只 有 140 个 字符 或 者 说 大 约 总 共 25 个 单词 ， 所 以 大 部 分 单词 的 频率 都 
。 我 们 感 兴趣 的 是 将 推 文 类似 的 用 户 聚 类 ， 因 此 我 们 创建 的 数据 集中 包含 用 户 所 有 i 

和 < 一 条 推 文 。 这 样 的 话 使 用 TD-IDF 会 更 有 意义 ， 聚 类 也 会 更 有 意义 。 

直接 应 用 TF-IDF 效 果 会 一 般 。 如 果 将 推 文中 常见 的 停 用 词 去 掉 效 果 会 更 好 。 RIERA 
量化 工具 并 将 最 大 的 文档 频率 比率 参数 设置 为 一 个 较 低 的 值 ， 比 如 50%。 这 会 去 掉 所 有 出 现在 一 
半 以 上 文档 中 的 单词 。 我 们 还 使 用 该 工具 中 的 搭配 特征 来 生成 Twitter 数据 中 的 二 元 组 (bigram ) 
并 将 它们 也 用 作 聚 类 特征 。 

但 是 这 里 存在 一 个 问题 。 推 文 是 一 种 写作 上 比较 随便 的 消息 ， 而 不 像 路 透 社 新 闻 语 料 中 的 文 
本 那样 经 过 精心 编辑 加 工 。 因 此 , 推 文中 包含 拼写 错误 、 省 略 、 倡 语 和 其 他 的 文本 变化 方式 。 三 
个 用 户 写 的 三 条 如 下 推 文 之 间 由 于 没有 任何 公共 词 ， 因 此 永远 无 法 将 其 聚 类 到 一 起 : 


HappyDad7: "Just had a refreshing bottle of Loke" 
BabyBoy2010: "I love Loca Kola" 
Cool_Dude9: "Dude me misssing LLokkkeee!!!!" 


为 解决 上 述 问题 ， 可 以 通过 语音 过 滤器 (phonetic filter) 来 发 现 上 述 拼 写 之 间 的 关系 。 这 些 
语音 过 滤器 将 单词 还 原 为 一 个 能 够 接近 单词 大 致 发 音 的 基本 形式 。 比 如 ,Loke 和 Loca 可 能 都 被 还 
原 成 LK， 而 单词 refreshing 可 能 被 还 原 成 RFRX。 上 述 过 程 至 少 有 三 种 著名 的 实现 方法 : Soudex、 
Metaphone 和 Double Metaphone。 所 有 方法 都 实现 于 Apache Commons Codec 库 中 ”。 下 面 我 们 使 用 


@ Apache Commons Codec 包 的 层次 结构 参见 http://commons.apache.org/codec/apidocs/org/apache/commons/codec/language/ 
package-tree.html。 
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DoubleMetaphone 实 现 方法 来 将 每 个 词 转换 成 其 基本 发 音 的 形式 。 下 面 的 代码 清单 给 出 了 使 用 


DoubleMetaphone 的 一 个 Lucence Analyzer 实 现 示例 程序 。 


代码 清单 12-3 ”为 推 文 优化 的 Lucene Analyzer% 


public class TwitterAnalyzer extends Analyzer { ,| 初始 化 编码 器 
private DoubleMetaphone filter = new DoubleMetaphone() ; 
@Override 


public TokenStream tokenStream(String fieldName, Reader reader) { 

final TokenStream result = new PorterStemFilter(new StopFilter ( 

true, new StandardTokenizer (Version.LUCENE_CURRENT, reader), 
StandardAnalyzer.STOP_WORDS_SET) ) ; 


TermAttribute termAtt = (TermAttribute) result 
-addAttribute(TermAttribute.class) ; 
StringBuilder buf = new StringBuilder(); 


try { 
while (result.incrementToken()) { 
String word = new String(termAtt.termBuffer(), 0, termAtt 
.termLength() ) ; 
buf .append(filter.encode(word)).append(" "); < 一 建立 发 音 词 根 


} 

} catch (IOException e) { 
e.printStackTrace(); 

} 


return new WhitespaceTokenizer (new StringReader (buf.toString())); 


注意 DoubleMetaphone 过 滤器 只 能 应 用 于 英语 文本 。 对 于 其 他 语言 可 能 需要 寻找 其 他 的 过 滤 
器 。 当 从 Twitter 下 载 推 文 时 ,数据 集中 也 会 包含 其 他 语言 的 推 文 。 在 这 个 例子 中 我 们 忽略 
了 其 他 语言 带 来 的 结果 损失 。 


利用 HDFS 复 制 命令 将 12.1.1 节 产生 的 SequenceFile 复 制 到 集群 上 , 一 旦 拷 上 去 之 后 ,就 可 
以 在 Twitter SequenceFile 上 运 锋行 DictionaryVectorizer 命 令 : 


bin/mahout seq2sparse -ng 2 -ml 20 -s 3 -x 50 -ow \ 
-i mia/twitter_seqfiles/ -o mia/twitter-vectors -n 2 \ 
-a mia.clustering.chi2.TwitterAnalyzer -seq 


要 确保 运行 上 述 命令 时 TwitterAanalyzer 类 处 于 Java 的 CLASSPATH 下 ， 这 一 点 很 重要 。 向 
量化 工具 会 花 一 些 时 间 对 推 文 进行 词 条 化 处 理 并 产生 完整 的 二 元 组 集合 。 向 量化 表示 将 比 原始 输 
入 所 占 的 空间 小 。 

我 们 并 不 知道 聚 类 要 产生 的 簇 的 个 数 。 由 于 这 里 产生 推 文 的 独立 用 户 不 足 100 000 个 ， 因 此 
可 以 每 100 个 用 户 创建 一 个 徐 ， 从 而 得 到 大 约 1000 个 徐 。 使 用 刚才 产生 的 向 量 运行 k-means 算法 。 
输出 结果 中 得 到 的 一 个 簇 的 例子 如 下 所 示 : 
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排名 靠 前 的 词 项 : 
KMK => 7.609467840194702 
APKM => 7.5810538053512575 
TP => 6.775630271434784 
KMPN => 5.795418488979339 
MRFL => 4.9811420202255245 
KSTS => 4.082704496383667 
NFLX => 4.005469512939453 
PTL = 3.9200561702251435 
N => 3.7717770755290987 
A => 3..4771755397319795 


这 里 的 特征 KMK 是 DoubleMetaphone 过 滤器 对 comic 、comics 、komic 等 之 类 的 词 作 用 后 的 
输出 结果 。 为 得 到 原始 词 , 不 使 用 上 述 过 滤器 处 理 或 直接 简单 地 使 用 standardanalyzer 来 对 向 
量 处 理 并 聚 类 即 可 。 

可 以 将 最 大 的 文档 频率 参数 设置 为 90% 和 20% 分 别 运行 两 次 聚 类 算法 。 这 样 做 以 后 ， 有 关 主 
题 comics 的 簇 中 排名 靠 前 的 词 条 如 下 面 所 示 : 


排名 靠 前 的 词 条 ，-maxDFPercent=50 


comic => 9.793121272867376 
comics => 6.. 115341078151356 
con => 5.015090566692931 
http => 4.613376768249454 
i => 4.255820257194115 
sdcc => 3.927590843402978 
you => 3.635386448917967 
re = 3.0831371437419546 
my = 2.9564724853544524 
webcomics => 2.916910980686997 


排名 靠 前 的 词 项 ，-maxDFPercent=20 


webcomics > 11.411304909842356 
comic => 10.651778670719692 
comics => 10.252182320186071 
webcomic => 7.813077817644392 
con => 5.867863954816546 
http => 4.937416185651506 
companymancomic => 4.899269049508231 
spudcomics = 4.543261228288923 
rt => 4.149479137148176 
addanaccity => 4.056342724391392 


上 述 两 个 输出 结果 表明 了 在 像 推 文 这 样 的 带 噪音 的 数据 中 进行 特征 选择 的 重要 性 。 当 最 大 文 
档 频率 参数 设置 为 文档 数 的 50% 时 ， 有 一 些 像 :、you、my、http 和 rt 的 特征 存在 。 这 些 特 征 占据 了 
距离 计算 中 的 主要 地 位 ,因此 它们 在 簇 中 心里 具有 和 较 高 的 权重 。 降低 上 述 阔 值 会 去 掉 大 部 分 这 样 
的 词 。 但 是 像 http 和 rt 之 类 的 词 仍然 出 现在 下 面 那个 簇 中, 理想 上 它们 应 该 被 去 掉 。 但 是 如 果 设 置 
非常 低 的 阀 值 可 能 会 有 风险 , 因为 此 时 可 能 会 丢失 一 些 十 分 重要 的 特征 。 一 种 更 好 的 做 法 是 手工 
建立 一 个 词汇 列表 然后 利用 Lucene StopFilter 去 掉 诸 如 bit.ly、http、tinyurl.com、 rt 之 类 的 单词 。 

上 面 只 利用 单词 来 计算 用 户 的 相似 度 , 然而 也 可 以 利用 用 户 的 交互 信息 来 推导 出 它们 之 间 的 
相似 度 。 例 如 ， 如 果 用 户 A 转 发 ( 含 转 发 或 重 述 ) 了 用 户 B 的 推 文 ， 那么 就 可 以 将 B 看 成 是 A 用 户 
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向 量 的 一 个 特征 ， 该 特征 的 权重 是 A 转 发 B 推 文 的 次 数 。 对 按照 用 户 兴 趣 聚 类 来 说 ， 这 可 能 是 的 
一 个 好 特征 。 

或 者 , 也 可 以 将 推 文中 用 户 之 间 互 相 提 及 的 次 数 作为 特征 的 权重 ， 但 是 如 果 这 样 做 的 话 ， 
特征 可 能 会 对 聚 类 的 结果 产生 负面 影响 。 该 特征 可 能 对 于 将 用 户 聚 成 讨论 社区 非常 有 用 ， We 
于 聚 成 兴趣 相投 的 用 户 群 可 能 并 不 好 。 对 某 个 问题 最 好 的 特征 并 不 一 定 适 用 于 其 他 问题 。 

WRK, 可 以 了 解 个 同 的 技术 博客 作者 如 何 到 到 一 起 ， 而 不 同 的 朋友 群 又 如 何 聚 到 一 起 。 
这 个 问题 还 是 留 给 读者 自己 去 探查 和 实验 吧 。 下 面 ， 我 们 会 考察 另 一 个 有 趣 的 问题 : 为 一 个 Web 
2.0 电 台 开发 个 标签 推荐 引 交 ， 


12.2 为 Last.fm 上 的 艺术 家 推荐 标签 


Last.fm 是 一 个 流行 的 互联 网 音乐 电台 网 站 。Last.fm 有 很 多 功能 , 我 们 感 兴 趣 的 是 用 户 能 够 用 
词 来 对 歌曲 或 艺术 家 打 标 签 。 FAM, Green Day 乐 队 可 以 打上 punk、rock 或 者 greenday 之 类 的 标签 。 
而 The Corrs 乐 队 可 以 使 用 violin 和 Celtic 来 作为 标签 。 

下 面 我 们 试图 通过 唆 类 来 实现 一 个 相关 标签 推荐 的 功能 。 这 可 以 辅助 用 户 来 打 标 签 : 用 户 输 
入 一 个 标签 之 后 ,系统 可 以 推荐 一 些 在 某 种 意义 上 常常 与 该 标签 共 现 的 其 他 标签 。 比 如 , 在 用 户 
对 歌曲 打上 标签 punk 后 ， 系统 可 能 会 推荐 标签 rock。 接 下 来 我 们 会 探讨 两 种 实现 方法 : 第 一 种 基 
于 简单 的 共 现 信息 来 实现 ， 第 二 种 通过 某 种 形式 的 聚 类 来 实现 。 

我 们 的 输入 数据 集 记 录 了 每 个 艺术 家 采用 某 个 单词 作为 标签 的 次 数 。 该 数据 集 可 以 从 地 址 
http://musicmachinery.com/2010/11/10/lastfm-artisttags2007/ 下 载 。 它 包含 了 Last.fm 音 乐 听 众 在 那 段 时 
间 对 20 000 个 艺术 家 进行 标注 所 使 用 的 频率 最 高 100 个 标签 的 原始 标记 次 数 。 数 据 集 的 格式 如 下 : 

artist-id<sep>artist-name<sep>tag-name<sep>count 


每 行 包 含 一 个 艺术 家 ID 及 其 姓名 、 一 个 标签 名 和 该 标签 标记 该 艺术 家 的 次 数 。 


12.2.1 利用 共 现 信息 进行 标签 推荐 


我 们 可 以 利用 共 现 信息 , 或 者 说 两 个 标签 同时 对 某 个 艺术 家 进行 标记 的 次 数 作为 相似 计算 的 
基础 。 在 前 面 的 第 6 章 我 们 讨论 过 共 现 信息 ， 那 里 计算 的 是 物品 的 共 现 信息 。 有 了 相似 度 计算 方 
法 之 后 ， 就 可 以 进行 聚 类 。 

对 每 个 标签 而 言 , 可 以 计算 它 和 其 他 标签 的 共 现 次 数 然后 将 共 现 次 数 最 高 的 那些 标签 作为 推 
荐 结果 。 这 里 只 有 一 个 问题 : 一 个 频繁 出 现 的 标签 ， 如 awesome， 会 同时 和 其 他 标签 共 现 ， 因 此 
即使 它 作 用 不 大 , 它 仍 然 会 作为 很 多 标签 的 推荐 标签 。 从 这 个 角度 来 看 ,我 们 必须 要 去 掉 那 些 高 
频 标签 。 

然而 , 采用 上 述 共 现 技术 来 推荐 标签 , 那么 那些 间接 关联 的 标签 永远 不 会 被 推荐 。 也 就 是 说 ， 
如 果 A 和 B 共 现 ，B 和 C 共 现 ， 当 用 户 添 加 标签 A 时 ， 上 述 基于 共 现 信息 的 方法 永远 不 会 推荐 C。 一 
个 变通 的 方案 就 是 将 间接 的 标签 也 加 入 到 推荐 标签 列表 中 并 对 它们 进行 重新 排序 。 
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但 是 对 于 解决 上 述 问题 来 说 , 聚 类 其 实 已 经 实现 了 这 个 功能 。 如 果 标 签 之 间 的 相似 度 在 立 值 
之 内 ， 不 管 它们 是 否 共 现 都 会 被 聚 成 一 类 。 

我 们 可 以 将 上 述 问题 建 模 为 基于 艺术 家 的 聚 类 问题 ,其 中 艺术 家 是 文档 ,而 特征 是 艺术 家 收 
到 的 标签 。 另 一 种 替代 方案 是 ,将 标签 看 成 文档 而 将 艺术 家 看 成 文档 中 的 词 ， 并 将 它们 共 现 的 次 
数 作为 词 频 。 这 是 分 析 同 一 问题 的 两 个 不 同 角度 ， 可 以 基于 图 12-1 中 的 二 分 图 (bipartite graph ) 
进行 建 模 。 

艺术 家 标签 


Johnny 


Cash Awesome 


Linkin 
Park 


Country 


图 12-1 一 个 典型 的 二 分 图 (一 个 可 以 将 节点 分 割 成 两 部 分 的 图 ) 。 这 里 一 类 节点 代表 艺 
RR, 另 一 类 代表 标签 。 边 上 的 权重 等 于 标签 应 用 于 艺术 家 的 次 数 。 在 推荐 系统 中 ， 
节点 由 用 户 和 物品 构成 ， 边 上 的 权重 是 用 户 标的 星 级 。 推 荐 和 聚 类 算法 之 间 的 密切 
程度 比 人 们 想象 的 高 


Last.fm 数 据 集 看 上 去 和 上 面 的 表示 类 似 , 可 以 直接 转换 成 向 量 。 我们 建立 一 个 简单 的 向 量化 
TR, 首先 生成 一 部 艺术 家 的 词典 , 然后 利用 该 词典 将 艺术 家 转换 成 MapReduce 形 式 的 整数 向 量 。 
我 们 本 可 以 使 用 字符 串 作为 ID, 但 是 Mahout Vector 形式 只 支持 整数 维度 。 当 看 到 将 Lastfm 艺 术 
家 转换 为 标签 向 量 的 代码 时 ， 这 一 原因 便 一 目 了 然 。 


12.2.2 ”构建 Last.fm 艺 术 家 词典 


为 了 生成 Last.fm 数 据 集 的 特征 向 量 , 我 们 部 署 两 个 MapReduce 作 业 。 第 一 个 作业 以 词典 的 形 
式 生成 独立 的 艺术 家 列表 ， 第 二 个 作业 利用 生成 的 词典 来 产生 和 向量。 词典 生 成 的 Mapper 和 
Reducer 类 的 代码 在 下 面 的 代码 清单 12-4、 代 码 清单 12-5 和 代码 清单 12-6 中 给 出 。 


代码 清单 12-4 ”从 数据 集 输出 艺术 家 


public class DictionaryMapper extends 
Mapper<LongWritable,Text,Text, IntWritable> { 
private Pattern splitter; 


@Override 


protected void map(LongWritable key, 


Text line, 
throws IOException, 


InterruptedException { 
fields 


(fields.length < 4) { 
context.getCounter("Map", 
return; 


} 
String artist 


String[] 
shg 


"LinesWithErrors") 


fields[1]; 


context.write(new Text(artist), 


} 


@Override 
protected void setup (Context context) 


Interrupted 
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new IntWritable(0)); 
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Context context) 


splitter.split(line.toString()); 


.increment (1) ; 


J 从 分 割 行 中 选择 艺术 家 


“| 将 艺术 家 作为 键 输出 


throws IOException, 


super. setup (context); 
splitter 


Pattern.compile("<sep>"); 


} 


Exception { 


上 述 Mapper 接 受 一 行文 本 作为 输入 然后 将 艺术 家 作为 键 输出 ， 此 时 其 对 应 的 值 为 空 。 该 键 - 


值 对 会 传送 给 Reducer。 


代码 清单 12-5 ” 按 艺术 家 分 组 并 输出 某 个 艺术 家 的 唯一 键 - 值 对 


public class DictionaryReducer extends 


Reducer<Text, IntWritable,Text,IntWritable> { 
@Override 


protected void reduce(Text artist, 


Iterable<IntWritable> values, 


Context context) 


throws IOException, 


InterruptedException { 


context.write(artist, new IntWritable(0)); 
} 
Mapper 输 出 艺术 家 ， 而 Reducer 只 输出 唯一 的 艺术 家 并 


ai 只 选择 键 


丢弃 空 的 字符 串 值 。 一 且 建 立 了 词 


典 ， 就 可 以 将 其 读 和 人 到 一 个 HashMap 中 ,其 中 每 个 词 都 会 映射 为 一 个 唯一 的 索引 值 ， 该 过 程 如 下 


面 的 代码 清单 所 示 ， 实 现时 是 串 行 执行 的 。 


代码 清单 12-6 ”使 用 唯一 的 艺术 家 姓名 并 为 每 个 艺术 家 创建 一 个 唯一 的 整数 ID 


Map<String,Integer> dictionary 
FileSystem fs 


new HashMap<String,Integer>(); 
FileSystem.get (dictionaryPath.toUri(), 


conf); 
FileStatus[] outputFiles = fs.globStatus ( 
new Path(dictionaryPath, "part-*")); 
int i = 0; "| Reena 
for (FileStatus fileStatus : outputFiles) { 
Path path = fileStatus.getPath(); 


SequenceFile.Reader reader 
conf); 

Text key = new Text(); 

Text value new Text(); 


new SequenceFile. 


Reader(fs, path, 
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while (reader.next (key, value)) { 


dictionary.put (key.toString(), 将 唯一 的 标签 放 入 词典 中 


Integer.valueOf (i++)); 


} 


这 个 HashMap 会 被 序列 化 并 保存 在 Hadoop 的 configuration 对 象 中 。 然 后 就 进入 下 一 个 
Mapper， 该 Mapper 利 用 这 部 词典 将 字符 串 标签 转换 成 整数 维 ID。 下 面 我 们 会 看 到 这 一 点 。 


12.2.3 将 Last.fm 标 签 转换 成 以 艺术 家 为 特征 的 向 量 


利用 上 一 节 生 成 的 词典 , 可 以 建立 标签 向 量 而 后 对 它们 进行 聚 类 。 向 量化 过 程 只 是 个 简单 的 
MapReduce 作 业 。Mapper 选 择 艺术 家 的 整数 特征 ID 然后 建立 单个 特征 的 向 量 。 这 些 一 维 的 部 分 
向 量 会 传输 给 Redaucer ， 后 者 会 将 这 些 向 量 简单 地 进行 联结 , 生成 一 个 完整 的 向 量 。 上 述 过 程 如 
代码 清单 12-7 所 示 。 


代码 清单 12-7 ”利用 艺术 家 的 整数 ID 映射 将 标签 转换 成 向 量 


public class VectorMapper extends 
Mapper<LongWritable,Text,Text,VectorWritable> { 
private Pattern splitter; 
private VectorWritable writer; 
private Map<String,Integer> dictionary = new HashMap<String, Integer>(); 


@Override 
protected void map(LongWritable key, Text value, 
Context context) throws IOException, 
InterruptedException { 
String[] fields = splitter.split(value.toString()); 
if (fields.length < 4) { 


context.getCounter("Map", "LinesWithErrors") .increment (1); 
return; 
} 
String artist = fields[1]; ,| 从 分 割 文本 中 选择 字段 
String tag = fields[2]; 
double weight = Double.parseDouble(fields[3]); 创建 向 量 
NamedVector vector = new NamedVector ( | 
new SequentialAccessSparseVector (dictionary.size()), tag); 
vector.set(dictionary.get(artist), weight); 将 ID 和 权重 写 入 向 量 
writer.set (vector); “| 
context.write(new Text(tag), writer); É 输出 部 分 向 量 
a 
} 
@Override 
protected void setup ( 
Context context) throws IOException, ica 
InterruptedException { 


super.setup(context) ; 


Configuration conf = context.getConfiguration(); 
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DefaultStringifier<Map<String,Integer>> mapStringifier 


= new DefaultStringifier<Map<String, Integer>> ( | 反 序 列 化 HashMap 
conf, GenericsUtil.getClass(dictionary) ); 


dictionary = mapStringifier.fromString(conf.get ("dictionary") ); 
splitter = Pattern.compile("<sep>"); 
writer = new VectorWritable(); 


} 


我 们 使 用 sequentialAccessSparseVector 作 为 标签 向 量 的 表示 形式 。k-means 算 法 会 对 
向 量 元 素 进行 多 次 顺序 的 遍历 ， 上述 表 示 最 适合 于 这 种 访问 模式 。 利 用 Mapper 输 出 的 部 分 向 量 ， 
Reducer 通 过 简单 的 拼接 得 到 一 个 完整 的 向 量 。 具 体 过 程 如 下 所 示 。 


代码 清单 12-8 组 合 部 分 标签 向 量 并 累加 成 完整 向 量 


public class VectorReducer extends 
Reducer<Text, VectorWritable,Text,VectorWritable> { 
private VectorWritable writer = new VectorWritable(); 


protected void reduce(Text tag, 
Iterable<VectorWritable> values, 
Context context) throws IOException, 


InterruptedException { 
Vector vector = null; 


for (VectorWritable partialVector : values) { 
if (vector == null) { “| 初始 化 空 向 量 
vector = partialVector.get().like(); 
} 
partialVector.get() .addTo(vector) ; 


} | 将 部 分 向 量 合并 成 完整 向 量 


NamedVector namedVector = new NamedVector (vector, 


tag 
.toString()); 
writer.set (namedVector) ; 
| 输出 完整 向 量 
context.write(tag, writer); 


: 12 
VectorReducer 将 部 分 向 量 合并 成 一 个 完整 向 量 。 现 在 Last.fm 的 艺术 家 癌 量 已 经 就 绪 。 下 
一 步 就 是 运行 k-means 聚 类 算法 来 得 到 主题 。 


12.2.4 ”在 Last.fm 数 据 上 运行 k-means 算法 


Last. fm 数据 集 的 向 量化 过 程 会 产生 大 概 98 999 个 不 同 的 标签 。 你 可 能 想 将 这 些 标签 聚 成 大 概 
每 个 包含 约 30 个 标签 的 簇 。 


通过 如 下 命令 ， 我们 尝试 利用 k-means 算法 来 建立 2000 个 标签 簇 : 
bin/mahout kmeans -i mia/lastfm_vectors/ \ 


-o mia/lastfm_topics -c mia/lastfm_centroids -k 2000 -ow \ 


-dm org.apache.mahout.common.distance.CosineDistanceMeasure \ 
-ed. 0.01 -x 20 -el 
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在 单 台 机 器 上 ,上 述 迭 代 过 程 大 约 需 要 30 分 钟 。 该 过 程 属于 计算 密集 型 , 因此 在 Hadoop 集 群 
中 增加 更 多 的 工作 机 便 能 减少 执行 的 时 间 。 
一 旦 得 到 输出 之 后 ， 可 以 利用 clusterdump 工 具 来 查看 这 些 标签 艇 。 具 体 命 令 如 下 : 


bin/mahout clusterdump -s mia/lastfm topics/clusters-16 \ 
-d mia/lastfm dict/part-r-00000-dict -dt sequencefile -n 10 


下 面 是 给 定 某 个 标签 下 排名 靠 前 的 艺术 家 : 


排名 靠 前 的 词 项 : 
Shania Twain => 1.126984126984127 
Garth Brooks => 0.746031746031746 
Sara Evans => 0.6031746031746031 
Lonestar => 0.5238095238095238 
SHeDaisy => 0.47619047619047616 
Faith Hill => 0.4126984126984127 
Miranda Lambert => 0.36507936507936506 
Dixie Chicks => 0.36507936507936506 
Brad Paisley => 0.3492063492063492 
Lee Ann Womack => 0.3492063492063492 

排名 靠 前 的 词 项 : 
Explosions in the Sky => 55.19047619047619 
Joe Satriani => 51.19047619047619 
Apocalyptica => 50.95238095238095 
Steve Vai => 43.666666666666664 
Mogwai => 39.57142857142857 
Godspeed You! Black Emperor => 32.00100000000101 
Yann Tiersen => 30.857142857142858 
Pelican => 20.285714285714285 
Do Make Say Think => 16.904761904761905 
Liquid Tension Experiment => 16.61904761904762 

排名 靠 前 的 词 项 : 
Justin Timberlake =s 6.739130434782608 
Disturbed => 0.391304347826087 
Timbaland => 0.34782608695652173 
Nelly Furtado => 0.30434782608695654 
Lustans Lakejer => 0.2608695652173913 
Michael Jackson => 0.2608695652173913 
Aaliyah => 0.21739130434782608 
Timbaland Magoo => 0.21739130434782608 
Jonathan Davis => 0.21739130434782608 
Sum 41 => 0.21739130434782608 


这 些 标 签 可 以 存储 在 数据 库 中 ， 而 后 有 需要 时 通过 查询 该 数据 库 可 以 为 任意 标签 进行 
推荐 。 

这 个 例子 展示 了 这 样 一 个 技巧 ， 即 可 以 将 数据 集 按 照 某 种 不 同 的 视角 进行 转换 以 便 进行 聚 
类 。 下 一 节 的 例子 会 涉及 更 多 的 内 容 ， 考 虑 的 是 一 个 流行 的 问答 网 站 Stack Overflow 的 公开 数据 
集 ， 该 数据 集 比 刚才 讨论 的 数据 集 要 大 很 多 。 
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12.3 分 析 Stack Overflow 数据 集 


Stack Overflow ( http://stackoverflow.com ) 是 一 个 在 线 的 问答 网 站 ， 该 网 站 提供 了 各 种 各 样 
的 编程 问题 和 人 解答。 用 户 可 以 提出 或 解答 问题 ,也 可 以 对 问题 及 答案 进行 投票 以 支持 或 反对 。 通 
过 与 网 站 的 交互 , 用 户 也 可 以 获得 一 些 声 望 得 分 。 比 如 , 用 户 一 旦 收 到 某 问题 的 答案 的 支持 投票 ， 
那么 就 得 10 分 。 累 积 足够 的 分 数 之 后 ， 用 户 可 以 获得 网 站 的 额外 特权 。 

感谢 Stack Overflow， 它 们 网 站 的 所 有 数据 都 可 以 免费 用 于 非 商 业 研究 。 我 们 利用 Stack 
Overflow 的 数据 集 ， 觉 得 其 中 一 些 可 以 看 成 聚 类 问题 。 比 如 ， 对 问题 进行 聚 类 以 找到 相关 问题 ， 
对 用 户 进行 聚 类 以 发 现 相关 用 户 ， 对 相似 答案 聚 类 来 保证 答案 更 具 可 读 性 。 


12.3.1 解析 Stack Overflow 数 据 集 


stackoverflow.com 及 其 姊妹 网 站 ( superusercom 、serverflow.com 等 ， 这 些 网 站 统称 为 Stack 
Exchange 平 台 ) 的 全 部 数据 集 打包 成 一 个 文件 ,可 以 从 地 址 http://blog.stackoverflow.com/category/ 
cc-wiki-dump 下 载 。 整 个 数据 集 的 压缩 包 大 概 有 3.5GB 左 右 。 所 有 数据 集 本 质 上 极其 类 似 ， 其 中 
Stack Overflow 是 其 中 最 大 和 最 主要 的 部 分 。 解 压 之 后 ，Stack Overflow 数 据 集 大 概 SGB 左 右 ， 这 
些 数据 被 分 割 为 多 个 XML 文件 。 发 帖 、 评 论 、 用 户 、 投 票 和 论坛 徽章 都 有 各 自 独 立 的 文件 。 

解析 XML 文件 可 能 需要 点 技巧 , 特别 是 在 Hadoop MapReduce 作 业 中 。 Mahout 为 在 MapReduce 
作业 中 读 取 XML 提供 了 一 个 org .apache.mahout.classifier.bayes. XMLInputFormat%, 
它 会 正确 检测 到 XML 中 的 每 个 重复 块 并 将 它 以 输入 记录 方式 传 给 Mapper。 我 们 可 以 进一步 通过 
任意 XML 解析 库 ， 以 XML 的 方式 解析 该 字符 串 。 

XMLInputFormat 类 需要 XML 块 的 开始 和 结束 标记 。 这 可 以 通过 在 Hadoop 的 Configuration 
对 象 中 设置 如 下 键 来 实现 : 


conf.set("xmlinput.start", "<row Id="); 
conf.set("xmlinput.end", " />"); 


conf.setInputFormat (XmlInputFormat.class) ; 


在 Mapper 中 ,将 键 设置 为 Longwritable 类 型 将 值 设 置 为 Text 类 型 ,然后 将 整个 XML 块 作 
为 Text 读 入 到 值 中 ， 其 中 包括 开始 和 结束 符 。 


12.3.2 ”在 Stack Overflow 中 发 现 聚 类 问题 


Stack Overflow 数 据 集 包含 一 张 用 户 表 、 一 张 问题 表 和 一 张 答案 表 。 它 们 之 间 存 在 关联 ， 基 
于 用 户 ID、 问 题 ID 和 答案 ID 将 有 助 于 将 数据 转换 成 你 所 要 的 形式 。 对 于 该 数据 集 有 如 下 一 些 有 趣 
的 聚 类 问题 : 

1. 对 发 帖 进行 聚 类 以 发 现 相 关 问 题 

识别 与 某 个 主题 相关 的 问题 十 分 有 用 。 用 户 在 浏览 一 个 没有 很 好 地 解决 其 问题 的 帖子 时 , 也 
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许可 以 在 一 些 相关 问题 中 找到 更 好 的 答案 。 这 种 寻找 相似 问题 的 过 程 就 像 前 面 提 到 的 在 路 透 社 数 
据 集 上 寻找 相似 文章 。 但 这 里 的 帖子 比 路 透 社 新 闻 要 短 而 比 Twitter 上 的 推 文 要 长 ， 因 此 TF-IDF 
权重 计算 方法 应 该 可 以 得 到 较 好 的 特征 。 我 们 最 好 也 去 除数 据 集 中 的 高 频 词 , 因此 这 里 将 最 大 的 
文档 频率 靖 值 设 为 70% 或 更 低 。 

在 对 上 述 数据 进行 向 量化 时 面临 的 一 个 巨大 挑战 是 缺乏 一 个 Stack Overflow 问 题 的 好 的 词 条 
化 工具 。 很 多 问题 和 答案 都 包含 来 自 不 同 编程 语言 的 代码 片段 ， 而 默认 的 Standardanalyzer 
并 未 被 设计 成 可 以 处 理 这 类 数据 。 因此 需要 编写 解析 器 来 处 理 代 码 中 的 括号 和 数组 以 及 不 同 编程 
语言 的 奇怪 格式 。 

除了 只 使 用 问题 之 外 , 还 可 以 将 问题 和 它们 的 答案 及 评论 打包 在 一 起 产生 更 大 的 文档 来 得 到 
更 多 的 问题 聚 类 特征 。 与 Twitter 不 同 ， 由 于 内 容 较 大 ， 因 此 这 里 的 拼写 错误 不 会 对 聚 类 的 质量 造 
成 太 大 的 影响 。 但 是 增加 一 个 DoubleMetaPhone 过 滤器 还 是 可 以 稍微 提高 一 点 聚 类 质量 的 。 由 
于 数据 很 多 ， 因 此 k-means 和 模糊 k-means 都 会 产生 类 似 的 结果 。 只 有 使 用 LDA 主 题 作为 特征 才 可 
以 得 到 更 高 质量 的 结果 ， 但 是 在 该 数据 集 上 运行 LDA 时 的 CPU 消耗 可 能 会 高 的 离谱 。 

2. 对 用 户 数 据 进行 聚 类 以 发 现 相似 用 户 

假设 你 是 一 个 长 期 使 用 JMS (Java Messaging Service，Java 消 息 服 务 ) API 的 开发 人 员 ， 那 么 
对 你 而 言 找到 那些 也 使 用 JMS 的 用 户 十 分 有 用 。 帮助 用 户 形成 这 样 的 社区 不 仅 可 以 提高 网 站 的 用 
户 体 验 ， 还 可 以 激发 用 户 的 参与 度 。 与 前 面 一 样 ， 这 里 可 以 通过 聚 类 来 计算 出 这 种 可 能 的 社区 。 

对 用 户 聚 类 需要 用 户 的 特征 向 量 。 这 些 特征 可 以 是 用 户 发 的 帖子 或 解答 的 内 容 , 或 者 是 用 户 
和 其 他 用 户 的 交互 信息 。 下 面 给 出 了 向 量 的 一 些 特征 : 

口 用 户 创 建 的 问题 或 解答 的 内 容 ， 包 括 来 自 文 本 和 代码 片段 的 n 元 组 (n-gram ); 

口 对 当前 用 户 发 的 帖子 进行 回复 或 评论 的 其 他 用 户 。 

可 以 只 利用 发 帖 的 内 容 对 用 户 聚 类 , 也 可 以 只 利用 共同 的 交互 数目 对 用 户 聚 类 , 或 者 两 者 同 
时 使 用 。 前 面 在 对 推 文 进行 聚 类 时 ， 只 用 到 了 内 容 信息 。 而 利用 交互 特征 来 对 用 户 聚 类 会 是 一 个 
很 好 的 实践 体验 。 

在 该 模型 中 , 用 户 是 文档 ,其 特征 是 其 他 与 之 有 过 交互 的 用 户 的 ID, 每 个 特征 值 反映 的 是 用 
户 之 间 的 交互 程度 。 该 交互 程度 可 以 通过 权重 来 计算 。 例 如 ， 如果 用 户 2 对 用 户 1 的 发 帖 进行 了 评 
ve, 那么 可 以 映射 为 权重 10。 但 是 如 果 用 户 2 对 用 户 1 的 发 帖 进 行 了 投票 ， 那 么 只 会 赋予 权重 2。 
如 果 是 投 反 对 票 的 话 ， 那 么 可 能 会 得 到 一 个 -10 的 权重 ,表示 这 两 个 用 户 交 互 的 概率 很 低 。 考 虑 
所 有 可 能 的 交互 行为 并 赋予 相应 权重 。 在 用 户 1 特 征 向 量 中 的 用 户 2 特 征 的 权重 为 它们 之 间 所 有 交 
互 权重 的 累加 值 。 利用 这 些 向 量 及 特征 , 就 可 以 尝试 基于 用 户 的 交互 模式 对 用 户 进行 从 类 并 看 看 
结果 怎样 。 


12.4 saps 


本 章 中 ， 我 们 通过 分 析 3 个 数据 集 Twitter、Last.fm 和 Stack Overflow 考 察 了 实际 中 的 聚 类 
MHo 
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一 开始 我 们 分 析 推 文 并 试图 找到 推 文 类 似 的 用 户 。 我 们 对 数据 进行 预 处 理 , 然后 转换 成 向 量 ， 
最 后 利用 这 些 向 量 按照 用 户 的 推 文 相 似 度 成 功 地 对 用 户 进行 了 聚 类 。 由 于 采用 了 基于 MapReduce 
的 实现 ，Mahout 很 容易 就 能 扩展 并 能 处 理 一 千 万 条 推 文 构成 的 数据 集 。 

我 们 利用 了 Last.fm 标 签 数据 集 的 一 个 小 规模 子 集 来 对 网 站 做 标签 推荐 ,我 们 将 该 问题 建 模 成 
一 个 二 分 图 网 络 , 其 中 一 类 节点 是 音乐 家 男 一 类 节点 是 用 户 产生 的 标签 , 边 上 的 权重 是 它们 共 现 
的 次 数 。 我 们 基于 标签 进行 了 聚 类 。 利 用 聚 类 的 结果 ， 很 容易 就 能 为 网 站 提供 标签 推荐 功能 。 

最 后 ， 我 们 考察 了 来 自 Stack Overflow 网 站 的 数据 。 我 们 讨论 了 几 个 这 种 论坛 上 实际 面 对 的 
问题 ， 这 些 问 题 只 利用 聚 类 算法 就 可 以 得 到 解决 。 

到 这 里 为 止 , 我 们 结束 了 Mahout 中 的 聚 类 算法 的 介绍 。 我 们 循序 渐进 的 介绍 了 机 器 学 习 的 一 
个 方面 ， 一 开始 介绍 基本 的 结构 和 数学 知识 ， 然 后 逐渐 过 渡 到 Hadoop 集 群 上 的 大 规模 问题 解决 
方案 。 

接 下 来 我 们 将 转向 介绍 Mahout 中 的 分 类 , 这 需要 更 复杂 的 有 关机 器 学 习 的 理论 和 一 些 坚实 的 
分 布 式 和 非 分 布 式 优化 技术 ， 这 样 才 能 完美 的 实现 精确 高 效 的 分 类 。 


第 三 部 分 


分 Žž 


第 三 部 分 也 是 本 书 最 后 一 部 分 ， 由 第 13 章 到 第 17 章 组 成 ， 主 要 介绍 如 何 利 用 Mahout 进 行 
分 类 。 利 用 这 一 部 分 介绍 的 技术 ， 你 能 够 构建 问题 ， 并 选择 和 准备 合适 的 数据 ， 以 利用 计算 
机 自动 将 数据 分 到 预定 的 类 别 中 。 分 类 是 一 种 简单 的 决策 形式 ， 对 单个 问题 提供 一 个 离散 的 
答案 。 基 于 机 器 的 分 类 是 上 述 决 策 的 自动 化 过 程 ， 它 从 正确 决策 样本 中 进行 学 习 并 自动 对 决 
策 进 行 仿真 ， 这 也 是 预测 分 析 中 的 核心 概念 。 分 类 依赖 于 有 指导 的 学 习 ， 并 且 集 中 关注 一 次 
回答 一 个 问题 ， 这 些 特点 使 它 有 别 于 前 面 两 部 分 分 别 介绍 的 察 类 和 推荐 。 与 分 类 相 比 ， 聚 类 
依赖 于 机 器 自身 进行 的 决策 ， 而 推荐 对 多 个 可 能 的 好 答案 进行 选择 和 排序 。 

这 一 部 分 将 介绍 分 类 的 3 个 阶段 。 第 13 章 和 第 14 章 介绍 分 类 的 基本 知识 ， 并 展示 如 何 构建 
和 训练 Mahout 分 类 模型 。 第 15 章 介绍 如 何在 整个 过 程 中 使 用 评估 技术 ， 来 识别 最 好 的 模型 版 
本 和 对 性 能 进行 调 优 。 第 16 章 和 第 17 章 介绍 的 是 如 何在 真实 场景 下 部 署 分 类 系统 。 这 一 部 分 
介绍 了 如 何 正确 识别 和 提取 有 用 的 数据 ， 并 详细 探讨 如 何 优化 特征 向 量 以 便 为 多 个 Mahout 分 
类 算法 所 用 。 另 外 ， 这 里 还 给 出 了 一 些 避 免 诸 如 目标 泄漏 问题 的 提示 。 一 步 一 步 分 析 的 示例 
可 以 让 读者 经 历 每 一 步 过 程 ， 从 而 帮助 其 构建 分 类 器 和 对 性 能 进行 调 优 。 

除了 详细 解释 如 何 为 速度 和 规模 需求 很 高 的 系统 构建 和 部 署 高 效 、 可 靠 的 分 类 器 ， 第 17 
章 还 给 出 了 一 个 实际 的 案例 ， 在 该 案例 中 一 个 在 线 营 销 公司 使 用 Mahout 来 完成 需求 。 通 过 这 
个 最 后 的 案例 ， 我 们 能 够 明白 如 何 真 正 应 用 各 章 介绍 的 分 类 知识 。 


REAR 

口 为 什么 说 Mahout 具 有 强大 的 分 类 功能 
口 分 类 的 主要 概念 和 术语 

口 典型 分 类 项 目的 工作 流程 

口 一 个 详尽 的 分 类 示例 


生活 常常 给 我 们 提出 一 些 非 开放 式 的 问题 , 要求 我 们 在 特定 选项 中 做 出 抉择 。 这 种 相对 朴素 
的 思想 是 人 类 和 机 器 进行 分 类 的 基础 。 分 类 依赖 于 潜在 答案 的 类 别 , 基于 机 器 的 分 类 则 是 这 种 简 
单 抉择 的 自动 化 形式 。 

本 章 介绍 适合 用 Mahout 做 分 类 的 情况 ， 并 解释 Mahout 相 比 于 其 他 方法 的 优势 。 作 为 对 分 类 的 
介绍 , 本章 还 解释 了 什么 是 分 类 ,以 及 其 中 一 些 基 本 的 术语 和 概念 。 此 外 , 我们 用 一 个 实例 来 描述 
如 何 进行 分 类 , 介绍 典型 分 类 项 目 工作 流程 的 三 个 阶段 一 一 训练 、 评 估 和 调 优 模型 一 一 以 及 如 何 实 
地 使 用 模型 。 然 后 ， 我 们 演示 了 一 个 简单 的 分 类 项 目 ， 并 逐步 展示 如 何 把 这 些 基 本 想法 付 诸 实践 。 


13.1 为 什么 用 Mahout 做 分 类 


Mahout 广 泛 用 于 分 类 项 目 , 但 仅 当 训练 样本 个 数 非常 大 时 ，Mahout 的 优势 才 会 体现 出 来 。 
这 里 “大 ”的 含义 千差万别 。 对 于 100 000 左 右 的 样本 ， 其 他 分 类 系统 也 能 做 到 高 效 、 准 确 。 但 
是 ， 当 输入 规模 达到 100 万 甚至 1 千 万 时 ， 就 需要 像 Mahout 这 种 具有 可 扩展 性 的 工具 了 。 表 13-1 
列 出 了 一 些 最 适合 使 用 Mahout 的 场合 。 


表 13-1 Mahout 的 最 大 价值 在 于 可 以 处 理 其 他 方法 无 法 处 理 的 超大 规模 或 增长 迅速 的 数据 集 
系统 中 的 样本 规模 分 类 方法 的 选择 
<100 000 传统 的 、 非 Mahout 方 法 可 以 做 得 很 好 。Mahout 训 练 速度 可 能 更 慢 
100 000~1 000 000 可 以 考虑 使 用 Mahout。 灵活 的 API 使 Mahout 成 为 一 个 理想 的 选择 , 尽管 没有 多 少 性 能 上 的 优势 
1 000 000~10 000 000 ”在 这 个 范围 内 ，Mahout 是 一 个 极 佳 的 选择 
>10 000 000 其 他 方法 完 败 于 Mahout 
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Mahout 在 较 大 数据 集 上 具有 优势 的 原因 在 于 , 随 着 输入 数据 的 增加 , 非 可 扩展 系统 用 于 训练 
的 时 间或 内 存 需 求 并 不 是 线性 增长 的 。 数 据 量 达到 两 倍 时 ,系统 训练 时 间 翻 倍 是 可 以 接受 的 , 但 
当 5 倍 的 输入 数据 导致 100 信 的 训练 时 间 时 , 就 需要 寻求 其 他 的 解决 方案 了 。 这 种 场合 下 ,Mahout 
恰 可 以 大 显 身 手 了 。 

一 般 情 况 下 ,Mahout 的 分 类 算法 所 需 计 算 资 源 的 增长 速度 不 会 超过 训练 或 测试 样本 数 。 而 且 ， 
大 多 数 情况 下 所 需 的 计算 资源 可 以 并 行 化 。 这 样 一 来 ,你 就 可 以 在 机 器 数量 和 运行 时 间 之 间 找 到 
平衡 。 

图 13-1 展 示 了 像 Mahout 所 提供 的 这 类 可 扩展 算法 在 大 中 型 分 类 项 目 中 的 优势 。 当 训练 样本 数 
很 小 时 ， 传 统 的 数据 挖掘 方法 可 以 做 得 很 好 ， 甚 至 好 过 Mahout。 但 随 着 样本 数 的 增加 ，Mahonut 
可 扩展 与 并 行 的 算法 会 获得 更 好 的 时 间 效率 。 非 可 扩展 算法 所 需 的 时 间 增 长 ,通常 是 由 于 它们 所 
需 的 内 存 会 随 着 训练 样本 数 无 限制 增长 。 目 前 , 海量 数据 集 变 得 越 来 越 普遍 。 随 着 数据 数字 化 存 
储 技术 的 不 断 进 步 ， 数 据 采集 的 代价 将 大 大 减少 。 使 用 大 量 数据 进行 训练 是 件 好 事 ， 因 为 通常 可 
以 提高 准确 度 。 结果 , 越 来 越 多 的 大 数据 集 需 要 采用 可 扩展 的 学 习 算 法 , 而 Mahout 可 扩展 的 分 类 
器 也 正 被 越 来 越 广泛 的 应 用 。 


时 间 
(开销 ) 
可 扩展 算法 
(Mahout 获 胜 ! ) 
韭 可 扩展 算法 
训练 样本 数目 
传统 数据 ary eer tira 
挖掘 方法 可 扩展 算法 需要 的 区 间 
有 效 工作 
的 区 间 


图 13-1 在 中 大 型 分 类 系统 中 使 用 Mahout 的 优势 。 锯 齿 状 曲线 展示 了 增加 机 器 带 来 的 
性 能 提升 。 每 增加 一 台 机 器 ， 都 能 减少 训练 时 间 


13.2 分 类 系统 基础 


在 了 解 基于 Mahout 的 分 类 方法 之 前 , 让 我 们 更 深入 地 了 解 一 下 分 类 的 基本 知识 , 以 及 它 与 推 
荐 和 聚 类 的 区 别 。 


200 第 13 章 分 类 


首先 ， 以 我 们 熟悉 的 基于 人 工 的 分 类 为 例 。 填 写 病 历 ， 完 成 一 个 企业 服务 质量 的 调查 ， 或 核 
对 你 在 纳税 申报 表 中 是 否 勾 选 了 正确 的 复 选 框 ， 这 都 需要 你 从 一 组 预先 给 定 的 答案 中 做 出 选择 。 
有 时 可 供 选 择 的 类 别 很 少 ， 甚 至 某 些 情况 下 仅仅 需要 回答 “是 ”或 “ 否 "。 在 这 种 情况 下 ， 分 类 
过 程 减少 了 潜在 的 庞大 而 复杂 的 可 能 性 ， 以 适应 少量 选项 。 


定义 分 类 是 使 用 特定 的 信息 (输入 ) 从 一 个 预定 义 的 潜在 回应 列表 中 做 出 单一 选择 ( 输出 ) 
的 过 程 。 


比较 一 个 品 酒会 上 的 人 和 一 个 去 商店 为 晚餐 买 酒 的 人 。 在 品 酒会 上 ， 人 们 可 能 会 问 :“ 你 觉 
得 那个 酒 怎么 样 ? ”回答 很 可 能 多 种 多 样 :“ 辛 辣 ”“ 水 果 味 ”“ 酿 得 不 错 ”“ 刺 激 ”“ 我 姑姑 沙发 
的 颜色 ”或 “品牌 不 错 ” 。 这 个 问题 不 具有 特异 性 ， 而 答案 (输出 ) 也 不 是 从 一 个 预先 定义 的 
列表 中 做 出 单一 选择 。 这 种 情况 就 不 是 分 类 了 ， 尽 管 它 可 能 跟 分 类 具有 某 些 相似 性 。 

现在 考虑 在 杂货 店 买 酒 的 顾客 。 在 品 酒会 中 探讨 的 一 些 酒 的 特性 ( 口味、 颜色 等 ) 可 能 对 顾 
客 也 有 意义 , 但 为 了 高 效 地 做 出 决定 ( 买 或 者 不 买 ) 然后 回去 就 餐 ， 顾 客 很 可 能 参照 心中 一 个 简 
单 的 特性 清单 〈 红 色 、10 美 元 、 适 合 搭配 比萨 、 一 个 熟悉 的 品牌 等 )， 然 后 对 每 一 瓶 酒 做 出 决定 
( 买 或 者 不 买 )。 他们 可 能 会 忽略 一 些 细节 和 细微 差别 , 但 对 于 可 选 答案 极 少 的 情况 ( 买 或 不 买 )， 
对 问题 进行 简化 是 一 个 切实 可 行 的 办 法 。 在 这 种 情况 下 ,顾客 可 以 及 时 离开 商店 回 家 吃饭 。 这 就 
是 一 种 分 类 。 

机 器 不 能 完成 人 类 所 有 的 思维 和 决策 。 但是, 在 特定 条 件 下 ,机 器 可 以 模仿 人 的 决策 ， 高效 
地 进行 分 类 。 当 需要 在 有 限 范围 内 做 出 单一 选择 时 , 这 种 基于 机 还 的 方法 是 可 行 的 。 输入 可 以 看 
做 是 一 组 特定 的 特性 ， 输 出 则 是 明确 的 ， 是 简短 列表 中 的 单一 选择 。 

分 类 算法 是 预测 分 析 (predictive analytic) 的 核心 。 预 测 分 析 的 目标 就 是 建立 一 个 自动 化 系 
统 ， 以 取代 人 类 做 出 决策 的 功能 。 分 类 算法 是 实现 这 一 目标 的 一 个 基本 工具 。 

垃圾 邮件 检测 就 是 预测 分 析 的 一 个 例子 。 计算机 使 用 用 户 历 史 细 节 和 电子 邮件 内 容 特 征 来 做 
判断 : 一 封 新 电子 邮件 是 垃圾 邮件 , 还 是 比较 受 欢 迎 的 邮件 ? 男 一 个 例子 是 信用 卡 欺诈 检测 。 计 
算 机 用 账户 最 近 的 历史 和 当前 交易 细节 来 确定 是 否 是 欺诈 性 交易 。 

自动 化 系统 如 何 做 到 这 点 ?我 们 希望 它们 神奇 地 做 到 这 一 点 , 但 实际 上 依赖 于 让 它们 从 样本 
中 学 习 。 


定义 计算 机 分 类 系统 是 一 种 机 器 学 习 的 形式 ， 它 通过 学 习 算法 使 计算 机 基于 经 验 做 出 决策 ， 
这 一 过 程 模仿 了 人 的 决策 。 


分 类 算法 基于 样 例 学 习 , 但 它们 并 不 能 取代 人 的 判断 , 这 在 很 大 程度 上 是 因为 它们 需要 精心 
准备 一 批 正确 决策 的 样本 ,并 从 中 学 习 。 而 且 , 它们 也 需要 精心 准备 用 于 判断 的 输入 。 与 Mahout 
的 其 他 用 途 不 同 ， 基 于 机 器 的 分 类 是 一 种 有 监督 的 学 习 形式 。 


13.2 分 类 系统 基础 201 


13.2.1 分 类 、 推 荐 和 聚 类 的 区 别 


分 类 与 前 面 各 章 中 提 到 的 聚 类 是 对 立 的 ,因为 聚 类 算法 自己 能 决定 哪些 区 别 是 重要 的 (在 机 
器 学 习 的 范畴 中 ， 它 们 是 无 监督 学 习 算法 )， 而 分 类 算法 则 需要 模仿 做 出 正确 决策 的 样本 来 学 习 
(它们 是 有 监督 算法 的 ), 分 类 算法 与 推荐 算法 也 是 有 区 别 的 , 分 类 算法 试图 从 很 有 限 的 输出 集合 
中 做 出 单一 决策 ， 而 推荐 算法 会 选择 许多 可 能 的 答案 ， 并 对 其 进行 排序 。 


警告 理解 分 类 概念 的 一 种 方式 是 提醒 自己 分 类 不 是 什么 : 如 果 你 的 系统 是 无 监督 的 ， 那 么 它 
就 不 是 分 类 ; 如 果 问 题 是 开放 式 的 ， 或 者 答案 没有 类 别 ， 那 么 你 的 系统 也 不 是 分 类 。 


有 点 奇怪 的 是 , 分 类 可 以 作为 一 种 创造 性 的 、 有 效 的 工具 用 于 推荐 过 程 。 通 常情 况 下 ， 建 立 
一 个 基于 分 类 的 推荐 系统 并 不 如 真正 的 推荐 系统 效率 高 , 但 用 作 推荐 程序 的 分 类 器 可 以 使 用 常规 
推荐 系统 很 难 使 用 的 某 些 信息 。 推 荐 系统 通常 使 用 用 户 行为 历史 ,而 无 视 用 户 和 物品 的 特点 ,而 
后 者 对 于 分 类 系统 却 是 很 有 用 的 。 第 17 章 中 的 案例 研究 描述 了 一 个 分 类 器 如 何 有 效 地 用 作 推 荐 
程序 。 

我 们 已 经 回答 了 “什么 是 分 类 ”这 个 问题 。 接 下 来 ,我 们 了 解 分 类 用 来 干什么 。 


13.2.2 分 类 的 应 用 


预先 定义 一 个 小 的 类 别 集合 , 分 类 系统 的 输出 就 是 将 其 输入 数据 对 应 到 此 集合 中 的 一 个 类 别 
Eo 分 类 的 效用 通常 由 预定 义 类 别 的 意义 来 衡量 。 建立 了 数据 与 类 别 的 对 应 关系 之 后 , 计算 机 或 
用 户 可 以 在 此 输出 的 基础 上 做 进一步 的 处 理 。 

分 类 通常 用 于 预测 或 检测 。 以 信用 卡 诈骗 为 例 , 分 类 器 能 基于 已 知 的 购买 行为 或 其 他 信用 卡 
交易 样本 ， 有 效 地 预测 交易 是 否 属于 欺诈 。 特 定 交 易 是 否 属于 欺诈 行为 ， 可 以 表示 为 两 个 类 别 : 
Æ, 欺诈; F, RARE, 

在 某 些 行业 中 ,如 保险 或 电信 , 分 类 对 于 预测 公司 的 客户 流失 很 有 用 。 我 们 可 以 通过 前 几 年 
的 客户 历史 数据 为 这 类 应 用 训练 分 类 系统 ， 其 中 客户 的 “流失 ”/“ 保 持 ” 对 应 于 目标 类 别 集合 
训练 数据 集中 ， 能 够 准确 预测 用 户 是 否 会 继续 使 用 服务 的 客户 特性 被 选 作 特征 。 一 旦 训练 完成 ， 
分 类 系统 可 基于 特定 的 已 知 特性 ， 包 括 当前 行为 ， 对 其 他 用 户 未 来 的 行为 进行 预测 。 


注意 前 面 我 们 用 预测 这 个 词 来 描述 分 类 器 的 行为 。 它 除了 指 代 预见 未 来 事件 的 能 力 ， 也 可 以 
指 对 一 个 可 能 存在 ， 但 在 分 类 时 并 不 容易 获得 的 值 的 估计 。 


我 们 可 以 将 预测 看 做 这 样 一 个 任务 ， 它 基于 现 有 数据 来 为 一 个 特性 赋值 ( 分配 一 个 类 别 )， 
而 不 是 直接 测定 该 特性 的 值 。 通常 直接 对 该 特性 本 身 进行 判别 的 代价 很 高 , 这 也 是 用 分 类 做 预测 
的 原因 。 这 里 ， 高 代价 指 金钱 或 时 间 成 本 太 高 ， 或 非常 危险 。 
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例如 , 对 于 糖尿 病 等 会 逐渐 恶化 的 疾病 , 你 可 能 不 希望 花 一 年 或 更 长 时 间 去 观察 其 恶化 的 过 
Fio 相反 ,你 可 以 建立 一 个 分 类 系统 ， 尽 早 评 估 将 来 可 能 出 现 的 风险 ， 而 不 必 等 到 疾病 恶化 到 不 
可 挽回 的 地 步 。 知 道 病 人 是 糖尿 病 早期 或 可 能 发 展 为 糖尿 病 , 医生 就 可 以 采取 预防 措施 或 为 病人 
进行 早期 的 治疗 。 


提示 分 类 通常 是 一 -种 通过 5 分析 低 代价 变量 组 合 来 确定 高 代价 变量 什 的 方法 。 


在 某 些 场合 ,分 类 系统 能 够 降低 对 人 喘 的 伤害 。 例 如 ， 通 过 认 知 测试 或 PET 扫 描 这 类 无 创 手 
段 诊断 老年 痴呆 症 ， 显 然 要 比 直接 解剖 大 脑 的 手段 更 可 取 ， 尤 其 是 在 病人 还 活着 的 时 候 。 
因此 ,分 类 是 很 有 用 的 。 但 是 ， 为 什么 要 用 Mahout 来 做 分 类 ， 而 不 用 其 他 软件 呢 ? 
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构建 分 类 系统 主要 有 两 个 阶段 : 通过 学 习 算 法 建立 一 个 模型 , 然后 使 用 该 模型 对 新 数据 进行 
分 类 。 如 何 选择 训练 数据 、 输 出 类 别 ( 目标 )、 系 统 使 用 的 学 习 算 法 以 及 用 作 输 入 的 变量 ， 是 构 
建 分 类 系统 第 一 阶段 的 关键 。 

构建 分 类 系统 的 基本 步骤 如 图 13-2 所 示 。 该 图 展示 了 分 类 过 程 的 两 个 阶段 : 上 面 表示 训练 分 类 
模型 的 过 程 ; 下 面 的 过 程 为 该 模型 提供 新 的 输入 样本 , 然后 通过 为 样本 分 配 类 别 ( 目标 变量 ) 来 模 
仿 决 策 。 训练 算 法 的 输入 由 样本 数据 和 标注 的 已 知 目 标 变 量 组 成 。 当 然 , 在 生产 环境 中 新 样本 的 目 
标 变量 是 未 知 的 。 在 对 算法 进行 评估 时 ， 这 些 目标 变量 的 值 是 已 知 的 ， 但 对 分 类 模型 不 可 见 。 


图 13-2 分 类 系统 的 运转 过 程 示 意图 。 虚 线 框 内 的 部 分 是 分 类 系统 的 核心 一 一 训练 算法 
训练 一 个 模型 以 模仿 人 类 的 决策 。 该 模型 的 一 个 副本 将 被 用 于 评估 或 生产 环境 
下 ， 对 于 新 的 输入 样本 ， 它 能 对 目标 变量 进行 估计 


测试 时 提交 给 模型 的 新 样本 不 能 包含 在 训练 数据 中 ， 这 一 点 没有 显 式 地 在 图 13-2 中 表示 出 
来 。 通 过 比较 模型 选择 的 结果 与 已 知 的 目标 变量 值 ， 就 可 以 评估 模型 的 性 能 ， 这 一 过 程 会 在 第 15 
章 进 行 深入 探讨 。 


13.3 ”分 类 的 工作 原理 203 


不 同人 描述 分 类 的 术语 大 不 相同 。 为 保持 一 致 性 , 我 们 限定 了 本 书 中 用 于 表述 关键 概念 的 术 
语 ， 其 中 大 部 分 术语 都 列 于 表 13-2 中 。 特 别 需 要 注意 记录 和 字段 的 关系 : 记录 存储 的 是 与 训练 样 
本 或 生产 样本 有 关 的 所 有 值 ,字段 则 存储 每 个 样本 的 某 个 特征 值 。 我们 将 在 接 下 来 的 几 节 中 对 表 
13-2 中 列 出 的 要 点 进行 探讨 。 


表 13-2 分 类 中 的 关键 概念 术语 
关键 概念 i R 
模型 一 个 做 决策 的 计算 机 程序 ; 在 分 类 中 ,训练 算法 的 输出 就 是 一 个 模型 
训练 数据 训练 样本 的 一 个 子 集 ， 带 有 目标 变量 值 的 标注 ， 用 作 学 习 算 法 的 输入 以 生成 模型 
测试 数据 留存 的 部 分 训练 样本 ， 隐 藏 其 目标 变量 值 ， 以 便 用 于 评估 模型 


训练 使 用 训练 数据 生成 模型 的 学 习 过 程 。 随 后 该 模型 可 将 预测 变量 作为 输入 来 估计 目标 变量 的 值 

训练 样本 具有 特征 的 实体 ， 将 被 用 作 学 习 算法 的 输入 

特征 训练 样本 或 新 样本 的 一 个 已 知 特性 。 一 个 特征 与 一 个 特性 是 等 同 的 

变量 在 这 个 上 下 文中 , 指 一 个 特征 的 值 或 一 个 关于 多 个 特征 的 函数 。 这 一 用 法 不 同 于 计算 机 编程 中 的 变量 

记录 存储 一 个 样本 的 容器 。 这 样 一 个 容器 由 多 个 字段 组 成 

字段 记录 的 一 部 分 ， 包 含 一 个 特征 的 值 (变量 ) 

预测 变量 选 做 分 类 模型 输入 的 一 个 特征 。 不 是 所 有 的 特征 都 会 被 用 到 。 某 些 特征 可 能 是 其 他 特征 按 某 种 规则 进 
行 组 合 的 结果 


目标 变量 分 类 模型 试图 去 预测 的 一 个 特征 ， 目标 变 量 是 可 分 类 的 决定 其 类 别 就 是 分 类 系统 的 目标 


在 接 下 来 的 几 节 中 , 我 们 更 密切 地 关注 模型 是 什么 ,以 及 它 是 如 何 训练 、 测 试 并 用 于 生产 环 
境 的 。 你 将 学 会 区 分 预测 变量 和 目标 变量 ， 理 解 如 何 正确 地 使 用 记录 、 字 段 和 值 , 并 了 解 变量 可 
取 值 的 4 种 形式 。 另 外 ， 你 会 发 现 Mahout 分 类 恰 是 监督 学 习 的 一 个 示例 。 


13.3.1 ”模型 


分 类 算法 从 样本 中 进行 学 习 的 过 程 就 是 训练 。 这 一 训练 过 程 的 输出 称 为 模型 。 模 型 是 一 个 函 
数 ， 随 后 可 作用 于 新 样本 以 生成 输出 , 模仿 原始 样本 上 的 决策 。 这 些 模仿 的 决策 就 是 分 类 系统 的 
最 终 产 出 。 


注意 a TETTI 就 是 一 个 有 效 的 计算 机 程序 。 


图 13-2 已 经 展示 了 如 何 将 训练 样本 和 标注 的 输出 值 传递 给 分 类 系统 的 学 习 部 分 以 生成 模型 。 
这 个 模型 本 身 就 可 以 看 做 是 做 决策 的 计算 机 程序 ， 它 会 被 复制 并 接受 新 样本 作为 输入 )。 我们 
的 目的 是 让 模型 模仿 训练 样本 作为 输入 的 例子 对 新 样本 进行 分 类 。 


13.3.2 训练、 测试 与 生产 
实际 上 ,训练 样本 通常 分 为 两 部 分 。 其 中 一 部 分 用 作 训 练 数据 ,大 概 占 可 用 数据 的 80% ~ 90%。 
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训练 数据 用 于 训练 以 产生 模型 。 男 一 部 分 称 为 测试 数据 ， 随 后 会 被 提交 给 模型 , 但 不 告诉 模型 真 
实 的 答案 一 一 尽管 它们 是 已 知 的 。 这 么 做 是 为 了 比较 模型 的 输出 和 期 望 的 输出 。 

一 且 模 型 的 性 能 满足 需求 ， 它 就 会 被 投入 到 生产 中 , 对 其 他 样本 进行 分 类 ， 而 这 些 样本 的 正 
确 决策 值 是 未 知 的 。 生 产 环 境 中 的 结果 通常 不 会 100% 准 确 ， 但 输出 的 质量 应 该 与 测试 阶段 的 结 
果 保 持 一 致 ， 除 非 输 入 数据 的 质量 或 其 他 外 部 条 件 发 生 了 改变 。 

一 个 常用 的 做 法 是 随 着 时 间 的 推移 , 将 采样 生产 环境 中 的 样本 并 将 其 加 入 到 训练 数据 中 , 这 
样 可 以 生成 不 断 更 新 的 模型 版 本 。 当 外 部 条 件 可 能 发 生 改 变 并 导致 决策 质量 随时 间 推 移 不 断 下 降 
时 ,这 种 对 生产 样本 进行 采样 的 做 法 十 分 重要 。 在 这 种 情况 下 ,我 们 可 以 训练 一 个 新 的 模型 ,使 
决策 质量 得 到 改善 或 恢复 到 原来 的 水 平 。 


13.3.3 ”预测 变量 与 目标 变 


变量 是 一 个 样本 某 个 特征 或 特性 的 值 。 这 个 值 可 以 是 通过 测量 或 计算 得 到 的 。 分 类 器 的 最 终 
目标 是 估计 一 个 特定 问题 的 分 类 答案 ,这 个 答案 就 是 目标 变量 。 在 生产 环境 中 , 目标 变量 是 需要 
为 每 个 新 样本 寻找 的 值 。 在 训练 阶段 ,每 个 历史 数据 (训练 数据 ) 的 目标 变量 都 是 已 知 的 ， 并 被 
用 来 训练 模型 。 

在 分 类 中 , 预测 变量 是 为 模型 提供 的 线索 ,以 便 模型 能 判断 为 各 个 样本 赋 一 个 什么 样 的 目标 
变量 。 用 于 分 类 的 预测 变量 也 称 为 输入 变量 (input variable ) 或 预测 因子 (predictor )。 

用 来 分 类 的 样本 特性 也 称 为 特征 ; 对 一 个 特定 特性 进行 描述 , 以便 用 于 分 类 系统 的 过 程 叫做 
特征 提取 。 如 果 一 个 特征 被 选 作 模型 的 输入 ， 那 么 我 们 可 以 将 该 特征 的 值 看 做 预测 变量 。 

”回忆 前 面 那个 硕 项 客 为 晚餐 买 酒 的 场景 。 酒 的 属性 ( 如 “颜色 ”、“ 适 合 搭 配 牛 排 "、“ 适 合 搭 配 

“适合 搭配 比萨 ”)， 以 及 其 他 属性 ( 如 价格 )， 都 被 顾客 用 于 做 决策 ( 买 或 不 买 )。 在 购买 决 
is 酒 的 这 些 特征 类 似 于 机 器 分 类 中 模型 输入 的 预测 变量 。 类 上 比 到 这 个 例子 , 决策 有 一 个 
二 值 目标 变量 : 买 或 者 不 买 。 每 瓶 酒 仅 对 应 一 个 选择 。 


注意 在 训练 时 目标 变量 和 预测 变量 都 会 提交 给 学 习 算法 。 然 而 ， 在 测试 和 生产 过 程 中 ， 仅 有 
预测 变量 是 对 模型 可 见 的 。 


在 准备 分 类 系统 时 , 大 多 数 用 作 训 练 数据 的 历史 样本 都 会 有 一 个 目标 变量 值 的 标注 。 在 测试 
过 程 中 ,测试 数据 的 目标 变量 会 被 保护 起 来 。 对 比 模型 估计 的 目标 值 与 各 测试 样本 已 知 的 目标 值 ， 
可 以 反映 分 类 模型 的 精度 。 

对 于 分 类 ， 表 示 目 标 变量 的 字段 必须 有 一 个 类 别 型 (categorical, 也 常常 译 为 指称 型 ) 的 值 。 
而 预测 变量 的 值 则 可 以 是 连续 的 ， 或 者 类 别 型 ,或 者 文本 ,或 者 单词 。 你 会 在 13.3.5 节 了 人 解 这 些 
值 的 类 型 ( 连续、 类别 型 、 文 本 型 或 单词 型 )。 通常 ,目标 变量 是 一 个 二 值 类 别 变量 ,也 就 是 说 ， 
它 仅 有 两 种 可 能 的 取 值 。 垃圾 邮件 检测 就 是 一 个 有 着 二 值 类 别 型 变量 的 分 类 系统 的 例子 : 邮件 是 
垃圾 或 不 是 垃圾 。 当 目标 变量 有 两 个 以 上 的 可 能 值 时 , 称 为 多 类 分 类 问题 。 第 14 章 ( 14.4 节 和 14.6 
节 ) 有 一 个 使 用 取 自 20 Newsgroups 数 据 的 多 类 分 类 的 例子 。 
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13.3.4 ER FRIE 


构成 分 类 算法 输入 的 样本 通常 表示 为 记录 的 形式 。 我 们 可 以 将 记录 看 做 存放 一 个 样本 值 的 仓 
库 〈 无 论 是 训练 样本 ， 还 是 生产 环境 中 使 用 的 新 样本 )。 记 录 通 常 包 含 一 些 命名 字段 ， 每 个 字段 
都 有 一 个 值 。 

每 个 训练 样本 的 记录 都 会 有 一 些 字 段 ， 用 于 存放 目标 变量 和 一 个 或 多 个 预测 变量 ， 如 图 13-3 
所 示 。 当 然 ,一 个 生产 样本 中 目标 变量 的 字段 是 未 知 值 ， 需 要 由 分 类 算法 来 确定 。 生 产 过 程 中 模 
型 的 输出 就 是 目标 变量 的 佑 计 值 ， 在 图 中 用 T 表 示 。 每 个 输入 样本 都 会 相应 地 有 一 个 输出 。 


图 13-3 分 类 模型 的 输入 与 输出 : 目标 变量 T) 与 预测 变量 ( xl .… xn ) 。 注 意 ， 在 训练 
阶段 T 是 包含 在 输入 数据 中 的 ， 而 生产 阶段 则 从 输入 数据 中 剥离 (用 ?表示 ) 


尽管 目标 值 只 能 是 类 别 型 , 但 表示 用 作 预 测 变量 的 特征 则 可 以 是 多 种 不 同类 型 的 值 。 下 面 我 
们 会 对 它们 进行 比较 。 
13.3.5 “预测 变量 值 的 4 种 类 型 


预测 变量 在 学 习 算法 中 用 作 输 入 , 但 哪个 变量 有 用 则 部 分 取决 于 值 的 类 型 。 区 分 变量 值 的 类 
型 不 仅仅 是 一 个 学 术 上 的 问题 。 正 确 识别 值 的 类 型 有 助 于 改善 分 类 系统 。 


预测 变量 的 值 有 4 种 常见 类 型 ， 即 连续 型 、 类 别 型 、 单 词 型 和 文本 型 ， 参 见 表 13-3。 43 
表 13-3 用 来 表示 特征 的 4 种 常见 类 型 
值 的 类 型 描 述 
连续 型 这 是 一 个 浮 点 值 。 这 类 值 可 能 是 价格 、 重 量 、 时 间 ， 或 其 他 任何 具有 数值 大 小 的 量 ， 且 这 个 大 小 是 值 的 
关键 属性 


类 别 型 ”一 个 类 别 型 值 可 以 从 一 个 预先 指定 的 集合 中 取 值 。 尽 管 类 别 型 值 的 集合 可 以 非常 大 ， 但 通常 这 个 集合 很 
小 ， 而 且 可 能 就 具有 两 个 元 素 。 布 尔 值 通常 被 视 为 类 别 型 值 。 另 一 个 例子 是 供应 商 ID 


单词 型 ”单词 型 值 就 像 类 别 型 值 ， 但 它 可 取 值 的 集合 是 无 限 的 


文本 型 ”文本 型 值 是 多 个 单词 型 值 的 序列 ， 全 都 是 同一 类 型 。 文 本 是 文本 型 值 的 典型 示例 ， 但 一 个 电子 邮件 地 址 
列表 或 URL 列 表 也 是 文本 型 的 
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区 分 连续 型 值 和 类 别 型 值 通常 比较 困难 。 通常 ,数字 识别 码 会 被 误 认为 连续 值 , 但 实际 上 它 
们 应 该 被 视 为 类 别 型 值 。 举 个 例子 ， 考 虑 下 面 这 些 值 ， 它 们 表示 邮政 编码 的 前 三 个 数字 : 757、 
415、215、809 以 及 446。 这 些 值 看 起 来 都 是 数值 型 值 ， 你 倾向 于 把 它们 视 为 连续 的 , 但 它们 更 符 
合 类 别 型 的 描述 , 因为 每 个 值 都 取 自 一 个 预先 指定 的 值 的 集合 。 将 一 个 类 别 型 值 视 作 连续 型 值 会 
严重 影响 分 类 器 的 精度 ， 反 之 亦 然 。 


提示 像 整数 这 样 的 对 象 未 必 是 连续 的 。 一 个 重要 的 检验 标准 是 将 两 个 值 相 加 ， 或 取 一 个 值 的 
对 数 或 平方 根 。 如 果 得 到 的 结果 是 未 定义 的 ， 那 这 很 可 能 是 类 别 型 值 ， 而 非 连续 型 值 。 
a ARE» 任何 有 相关 计量 单位 的 度量 通常 都 是 连续 变 重 。 


单词 型 值 是 类 别 型 值 的 扩展 , 这 种 情况 下 有 许多 可 能 的 值 。 一 者 之 间 的 区 别 在 于 一 个 特征 可 
取 的 值 有 多 少 个 。 即 使 某 个 特征 可 以 取 很 多 个 值 , 就 会 存在 有 限 的 预先 指定 值 表 吗 ? 当 你 无 法 确 
定 有 多 少 个 可 取 的 值 时 ,变量 就 很 可 能 是 单词 型 的 。 通常 ,我 们 很 难 判定 应 该 将 一 个 值 视 为 单词 
型 还 是 类 别 型 。 例如 , 汽车 的 品牌 或 型 号 似乎 是 类 别 型 的 , 但 新 的 汽车 品牌 或 型 号 随时 可 能 出 现 
因此 把 这 样 一 个 值 视 为 单词 型 可 能 是 更 好 的 选择 。 

在 某 些 场合 ,类别 型 可 取 的 值 或 许 有 儿 千 个 , 甚至 更 多 , 通常 把 它们 视 为 单词 型 更 合适 。 如 
果 你 已 经 有 许多 可 能 的 值 , 很 可 能 值 的 集合 并 不 像 你 想象 的 那样 固定 。 有 时 候 , 类 别 型 值 可 能 有 
某 种 顺序 ， 但 Mahout 中 的 分 类 算法 目前 并 没有 考虑 这 种 顺序 。 

如 果 有 这 样 一 个 变量 , 其 值 可 以 被 视 为 单词 型 值 的 集合 , 你 应 该 考虑 将 它 看 成 是 文本 型 ， 尽 
管 仅 在 少数 样本 中 会 出 现 一 个 以 上 的 这 种 值 。 文 本 型 值 通常 存储 为 字符 串 , 因此 需要 词 条 化 工具 
将 字符 串 转 换 成 单词 型 值 的 序列 。 


提示 通常 可 以 基于 这 样 一 个 事实 来 判定 变量 量 是 文本 型 的 ， 即 值 的 成 分 可 以 以 任意 组 合 的 形式 
出 现 。 基 于 这 一 点 ， 一 个 可 取 值 为 General Motors、Ford 或 Chrysler 的 值 并 非 文本 型 尽管 
General Motors 包 含 了 两 个 词 。 这 是 因为 像 General Chrysler Ford 这 样 的 值 无 效 。 


查看 表 13-4 时 请 回顾 一 下 表 13-3 中 的 描述 ， 前 者 列 出 了 取 自 不 同 数据 源 的 一 些 样本 。 第 一 个 
值 是 一 个 电子 邮件 地 址 ,是 取 自 开放 式 集合 的 单个 实体 ， 因 此 是 单词 型 。 垃 圾 邮件 单词 值 或 非 垃 
专 邮 件 单词 值 由 一 个 单词 列表 (或 可 能 的 单词 ) 组 成 ， 因 此 被 认为 是 文本 型 的 。 


表 13-4 ”4 种 类 型 值 的 样本 数据 。 这 些 样本 是 典型 的 电子 邮件 数据 的 特征 


名 称 类 型 值 
from-address 单词 型 George 
in-address-book? 类 别 型 (TRUE, FALSE) TRUE 
non-spam-words 文本 型 Ted, Mahout, User, lunch 
spam-words 文本 型 available 
unknown-words 连续 型 0 


message-length 连续 型 31 
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学 习 是 有 监督 的 还 是 无 监督 的 , 是 分 类 和 其 他 Mahout 功 能 ( 如 聚 类 或 推荐 ) 的 一 个 区 别 。 下 
一 节 会 解释 这 个 术语 。 


13.36 ”有 监督 学 习 与 无 监督 学 习 


分 类 算法 与 聚 类 算法 ( 如 前 面 各 章 中 提 到 的 k-means 算法 ) 相关 ,但 又 大 不 相同 。 分 类 算法 
是 一 种 有 监督 学 习 , 这 与 聚 类 算法 的 无 监督 学 习 正 好 相反 。 有 监督 学 习 算法 处 理 的 是 带 有 期 望 目 
标 变量 值 的 训练 样本 。 无 监督 算法 则 没有 期 望 的 答案 ， 取而代之 的 是 对 数据 的 合理 解释 。 

有 监督 学 习 算 法 和 无 监督 学 习 算 法 通常 可 以 有 效 地 结合 起 来 。 聚 类 算法 可 以 用 来 生成 为 学 习 
算法 所 用 的 特征 ,或 者 多 个 分 类 器 的 输出 可 以 作为 特征 为 聚 类 算法 所 用 。 此 外 ， 聚 类 系统 通常 会 
建立 一 个 可 用 于 对 新 数据 进行 分 类 的 模型 。 该 聚 类 系统 模型 的 工作 方式 与 分 类 系统 生成 的 模型 非 
常 类 似 。 不 同 之 处 在 于 生成 模型 的 数据 。 对 于 分 类 , 训练 数据 包含 了 目标 变量 。 而 对 于 聚 类 来 说 ， 
训练 数据 不 包含 目标 变量 。 

现在 你 应 该 对 分 类 是 什么 有 了 一 个 基本 的 认识 ,并 且 知 道 使 用 Mahout 对 超大 规模 数据 集 进 行 
分 类 的 优势 ; 是 时 候 把 这 些 想法 付 诸 实践 了 。 


13.4 ”典型 分 类 项 目的 工作 流 


虽然 具体 项 目 之 间 会 存在 差异 ， 但 构建 并 运行 分 类 系统 都 需要 遵循 一 系列 非常 标准 的 步 又 。 
在 这 一 他， 我 们 给 出 了 分 类 项 目的 典型 工作 流 : 训练 模型 ， 评 估 并 调整 模型 以 达到 可 接受 水 平 ， 
然后 在 生产 环境 中 运行 系统 。 我 们 将 使 用 合成 数据 阐述 工作 流程 中 的 一 些 步 又。 最 后 ，13.5 节 给 
出 了 一 个 更 完整 的 示例 ， 用 Mahout 完 成 分 类 项 目 。 

作为 任何 项 目的 先决 条 件 , 你 需要 确定 要 寻找 的 信息 (目标 变量 ) 是 否 能 够 当做 特征 ， 以 适 
当 形 式 存储 在 一 条 记录 中 ,并且 符合 总 体 目 标的 要 求 ， 比 如 识别 欺诈 性 的 金融 交易 。 有 了 时候, 你 
需要 根据 一 些 现实 因素 调整 目标 变量 的 选择 ， 例 如 训练 代价 、 隐 私 问题 等 。 你 也 需要 知道 有 哪些 
数据 可 用 于 训练 ， 系 统 运行 时 又 会 遇 到 什么 新 数据 ， 这 样 才 能 设计 出 有 用 的 分 类 器 。 


注意 通常 ， 构 建 分 类 器 的 大 部 分 精力 会 花 在 设计 并 提取 有 用 的 特征 上 。 这 一 步 所 需 的 工作 量 
也 常常 超出 预期 。 


分 类 项 目的 一 般 开发 步骤 如 表 13-5 所 示 。 系 统 每 个 阶段 的 准确 性 和 输出 结果 的 有 效 性 ,很 大 
程度 上 反映 了 用 作 预 测 变量 的 原始 特征 选择 和 目标 变量 的 类 别 选择 的 好 坏 。 对 于 每 种 选择 而 言 并 
不 存在 单一 的 正确 选择 : 有 很 多 可 取 的 方法 和 调整 手段 , 要 构建 一 个 高 效 、 健 壮 的 系统 ,需要 尝 
试 一 些 不 同 的 方法 。 
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表 13-5 ”典型 分 类 项 目的 工作 流 


阶 ë R 步 mR 
(1) 训练 模型 定义 目标 变量 
搜集 历史 数据 
定义 预测 变量 
选择 学 习 算 法 
使 用 学 习 算 法 训练 模型 
(2) 评估 模型 在 测试 数据 上 运行 
调整 输入 ( 改变 预测 变量 、 改 变 算法 ,或 二 者 一 起 改变 ) 
(3) 在 生产 中 使 用 模型 输入 新 样本 ,估计 未 知 的 目标 变量 值 


在 必要 时 重新 训练 模型 


训练 和 评估 模型 的 过 程 中 ， 每 一 步 的 特征 选择 都 需要 综合 考虑 经 济 和 时 间 上 是 否 负担 得 起 ， 
以 及 模型 估计 值 的 精度 是 否 可 以 接受 。 
在 下 面 的 几 节 中 ， 我 们 将 会 具体 讨论 分 类 的 3 个 阶段 。 


13.4.1 第 一 阶段 工作 流 : 训练 分 类 模型 


在 分 类 项 目的 第 一 阶段 , 你 需要 心中 有 一 个 目标 变量 , 这 有 利于 选择 合适 的 历史 数据 用 于 训 
练 ， 以 及 选择 有 效 的 学 习 算 法 。 这 些 决策 之 间 都 是 密切 相关 的 。 

在 下 面 的 讨论 中 ， 我 们 将 考察 特征 选择 方法 对 Mahout 学 习 算 法 的 具体 影响 方式 ， 确 定 哪 个 
Mahout 学 习 算 法 适合 当前 的 分 类 器 。 

1. 定义 目标 变量 的 类 别 

定义 目标 变量 涉及 目标 变量 类 别 的 定义 。 目标 变量 不 能 在 一 个 开放 集合 中 取 值 。 你 选择 的 类 
BN, 反 过 来 也 会 影响 你 对 学 习 算 法 的 选择 ， 因 为 某 些 算法 仅 适用 于 二 值 目标 变量 的 情况 。 目 标 变 
量 的 类 别 数 越 少 越 好 ， 如 果 可 以 把 类 别 数 降 到 两 个 的 话 ， 那 么 会 有 更 多 的 学 习 算法 可 供 选 择 。 

如 果 目 标 变量 不 适合 降低 到 简单 形式 , 你 可 能 需要 构建 多 个 分 类 系统 , 各 自 处 理 你 预期 目标 
变量 的 某 个 方面 。 在 你 最 终 的 系统 中 , 你 可 以 把 这 些 分 类 系统 的 输出 组 合 起 来 ， 以 提供 所 需 的 全 
面 而 细致 的 决策 或 预测 。 

2. 搜集 历史 数据 

你 所 选择 的 历史 数据 源 ， 部 分 依赖 于 搜集 带 标注 历史 数据 的 具体 需求 。 在 某 些 问题 中 ,确定 
目标 变量 的 值 是 很 困难 的 。 

俗话 说 垃圾 堆 里 出 垃圾 , 放 在 这 里 很 合适 , 你 需要 小 心 谨慎 地 确保 历史 数据 中 目标 变量 值 的 
准确 性 。 在 一 个 有 缺陷 的 目标 变量 或 数据 搜集 过 程 基础 上 建立 了 很 多 模型 之 后 , 由 于 模型 的 效果 
很 差 ， 你 可 能 并 不 想 再 构建 其 他 模型 了 。 

3. 定义 预测 变量 

选择 了 一 个 有 效 的 目标 变量 并 定义 好 其 可 选 值 集合 之 后 , 你 需要 定义 预测 变量 。 这 些 变量 是 
从 训练 和 测试 样本 中 提取 的 特征 的 具体 编码 。 
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你 需要 再 一 次 检测 样本 源 , 确保 它们 的 特征 有 效 , 且 它们 的 值 能 以 适当 的 格式 存放 在 记录 中 。 
图 13-3 给 出 了 用 于 训练 、 测 试 数据 以 及 生产 数据 的 记录 中 的 预测 变量 。 


we ARRUE EH MEARE EIRE EARL (arget leak), 


定义 预测 变量 的 一 个 重要 考虑 因素 是 避免 导致 目标 泄漏 。 目 标 洪 漏 , 顾名思义 , 是 一 个 错误 ， 
指 在 选择 预测 变量 时 , 无 意 中 引 入 了 目标 变量 的 信息 。 此 错误 与 在 训练 样本 中 有 意 包含 目标 变量 
不 同 。 

目标 泄漏 会 严重 影响 分 类 系统 的 精度 。 当 你 告诉 分 类 器 目标 变量 是 一 个 预测 变量 时 ,这 个 问 
题 会 相当 明显 。 这 是 一 个 显而易见 的 问题 ,但 它 经 常 发 生 。 

目标 泄漏 可 能 很 微妙 。 假设 需要 构建 一 个 垃圾 邮件 检测 絮 , 你 将 垃圾 邮件 和 非 垃圾 邮件 样本 
放 入 不 同 的 文件 , 随后 在 各 个 文件 中 按 顺 序 给 样本 标 上 序号 。 同 一 文件 中 的 样本 将 会 有 着 某 个 
围 内 的 连续 序号 ,而 这 一 点 可 以 用 来 区 分 垃圾 和 非 垃圾 邮件 。 如 果 存 在 这 种 类 型 的 目标 泄漏 ,很 
多 分 类 算法 都 会 迅速 发 现 序 号 的 范围 与 垃圾 / 非 垃 圾 邮件 的 对 应 关系 , 并 仅 依 赖 该 特征 解决 问题 ， 
因为 它 (在 训练 数据 中 ) 看 起 来 是 完全 可 靠 的。 这 就 是 问题 所 在 ， 当 你 将 新 数据 传递 给 一 个 几乎 
完全 依赖 序号 的 模型 时 , 这 个 模型 只 能 举 手 投 降 了 , 因为 新 样本 中 的 序号 可 能 不 在 前 面 的 范围 之 
内 。 该 模型 很 可 能 将 新 样本 归 人 具有 最 大 序号 的 范围 。 

目标 泄漏 可 能 是 相当 隐 星 的 ， 很 难 找到 。 最 好 的 建议 是 ， 对 结果 太 理 想 的 模型 持 怀疑 态度 。 

4. 例 1: 将 位 置 用 作 预 测 变量 

我 们 用 一 个 使 用 合成 数据 的 简单 例子 演示 如 何 选择 预测 变量 , 以 使 Mahout 习 得 的 模型 能 够 准 
确 地 预测 期 望 的 目标 变量 。 图 13-4 中 是 一 个 历史 数据 集合 。 假 设 你 
色 填 充 是 目标 变量 。 这 个 问题 中 ,什么 特征 最 适合 用 作 预 测 变量 呢 ? 
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图 13-4 ”使 用 位 置 来 对 颜色 填充 进行 分 类 : 在 这 个 历史 数据 中 ， 目 标 变量 是 颜色 填 
充 ， 特征 可 以 视 为 包含 形状 和 位 置 的 预测 变量 。 位 置 看 起 来 更 适合 用 作 预 
测 变量 一 一 水 平 (x ) 坐标 可 能 就 足够 了 。 形 状 似乎 并 不 重要 
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对 于 分 类 问题 ， 你 必须 确定 目标 变量 的 类 别 , 在 这 个 例子 里 就 是 颜色 填充 。 颜 色 填充 很 明显 
有 两 种 可 能 取 值 ， 即 填充 或 未 填充 。 你 也 可 以 用 一 个 答案 为 是 或 否 的 问题 作为 目标 变量 :“ 元 素 
是 否 填充 颜色 ? ” 

不 要 认为 这 一 点 是 理所当然 的 ,因此 请 检查 历史 数据 ， 确 保 它 包含 了 目标 变量 。 这 里 它 明 显 
包含 了 (很 好 ! )， 但 现实 世界 中 并 不 总 是 如 此 明显 。 

现在 你 需要 选择 用 作 预 测 变量 的 特征 。 哪 些 特征 是 你 可 以 正确 表述 的 呢 ? 首先 排除 颜色 十 
充 ( 它 是 目标 变量 )， 你 可 以 将 位 置 或 形状 用 作 变 量 。 你 可 以 用 x 和 y 坐 标 来 描述 位 置 。 基 于 一 
个 数据 表 ， 你 可 以 为 每 个 样本 创建 一 条 记录 ， 包 含 目标 变量 和 你 正在 考虑 的 预测 变量 的 字段 。 
图 13-5 是 两 个 训练 样本 的 记录 示例 。( 这 个 例子 的 完整 数据 可 以 在 Mahout 源 代码 的 examples 模 
块 中 找到 。 ) 


x 坐标 2 坐标 形状 
是 否 填充 颜色 ? \ 
rr i Ai 1 


0.92 0. circle 


ye 0.30 0.41 quare 


J Le es 
\ \ 
目标 变量 预测 变量 
图 13-5 训练 数据 中 的 两 条 记录 。 图 13-4 中 数据 的 记录 包含 存储 目标 变量 值 的 字段 ， 
以 及 存储 预测 变量 值 的 字段 。 在 这 种 情况 下 ， 与 位 置 (x、y 坐 标 ) 和 形状 相关 
的 值 包含 在 两 个 样本 中 


如 果 再 次 查看 图 13-4 所 示 的 历史 数据 ， 你 会 发 现 尽管 训练 数据 同时 具有 位 置 和 形状 信息 ， 
玲 标 就 下 以 用 于 区 分 填充 和 未 填充 的 符号 了 。 形 状 对 于 判定 一 个 符号 是 否 被 颅 色 填充 不 起 作用 
J 坐 标 也 是 如 此 。 


提示 ”不 是 所 有 特征 都 对 每 一 个 分 类 问题 有 用 。 特定 场合 和 你 的 具体 问题 决定 了 哪些 特征 
有 效 的 预测 变量 。 了 解 你 NARRADA, 


在 设计 分 类 系统 时 , 你 需要 根据 经 验 选 择 最 可 能 有 效 的 特征 , 模型 的 准确 性 也 会 反映 出 你 的 
选择 是 否 正 确 。 没 有 必要 排除 所 有 没有 区 分 力 的 特征 , 但 是 引入 的 元 余 或 无 关 特 征 越 少 ,分 类 器 
提供 准确 结果 的 可 能 性 就 越 大 。 例 如 图 13-4 中 的 数据 ， 可 能 最 好 忽略 ?坐标 和 形状 ， 仅 使 用 x* 坐 标 
训练 模型 。 

5. 例 2: 不 同 的 数据 需要 不 同 的 预测 变量 

仅仅 因为 新 搜集 的 数据 跟 以 前 的 数据 具有 同样 的 特征 , 就 使 用 跟 以 前 同样 特征 的 预测 变量 是 
不 对 的 。 这 一 观点 在 图 13-6 中 得 到 了 体现 。 这 里 你 可 以 看 到 另 一 组 历史 数据 ， 它 们 与 之 前 的 数据 
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有 着 同样 的 特征 。 但 在 这 种 情况 下 ， 无 论 x 还 是 ?坐标 似乎 都 对 预测 符号 是 否 填 充 颜 色 没有 作用 。 
位 置 不 再 有 用 ， 但 现在 形状 成 为 了 一 个 有 用 的 特征 。 
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图 13-6 ”使 用 形状 对 颜色 填充 进行 分 类 : 这 个 数据 与 图 13-4 中 的 数据 使 用 同样 的 特征 
(形状 和 位 置 ) ,但 预测 目标 变量 ( 颜色 填充 ) 需要 使 用 不 同 的 预测 变量 。 这 
里 ,位置 不 再 有 效 ， 但 形状 很 有 用 


在 这 个 例子 中 ， 选 作 预 测 变量 的 特征 (形状 ) 具有 3 种 值 ( 圆 形 、 三 角形 、 正 方形 )。 如 
果 有 必要 ,你 可 以 进一步 引入 朝向 ， 来 区 分 这 些 形状 (方形 与 萎 形 ; 朝 上 的 三 角形 和 朝 下 的 
三 角形 )。 

6. 选择 一 个 学 习 算 法 来 训练 模型 

在 任何 项 目 中 ,你 都 必须 在 选择 所 要 使 用 的 算法 时 考虑 一 些 参 数 , 例如 训练 数据 的 规模 、 预 
测 变量 的 特性 ， 以 及 目标 变量 的 类 别 数 等 。Mahout 的 分 类 算法 包括 朴素 贝 叶 斯 (naive Bayes )、 
补充 朴素 贝 叶 斯 ( complementary naive Bayes )、 随 机 梯度 下 降 ( Stochastic Gradient Descent, SGD ) 
以 及 随机 森林 (random forest )。 其 中 朴素 贝 叶 斯 、 补 充 朴 素 贝 叶 斯 以 及 SGD 的 使 用 和 效果 会 在 14.5 
节 详 细 讨论 。 

即使 是 前 面 那 些 简单 的 例子 ,不 同 的 算法 也 各 有 优势 。 在 例 1 中 , 训练 算法 应 该 使 用 x 坐 标 位 
置 来 判定 颜色 填充 。 在 例 2 中 ,形状 更 有 用 。 然 而 ， 一 个 点 的 x 坐 标点 位 置 是 连续 变量 ， 某 些 算 法 
可 以 很 好 地 使 用 连续 变量 。 在 Mahout 中 ,SGD 和 随机 森林 法 就 是 如 此 。 另 一 些 算法 则 无 法 使 用 连 
续 变 量 ， 例 如 朴素 贝 叶 斯 和 补充 朴素 贝 叶 斯 。 

当 数 据 集 规模 特别 大 时 , 并 行 算法 对 速度 的 提升 很 明显 。 那 么 , 为 什么 有 时 也 会 用 非 并 行 ( 串 
ÍT) 算法 做 分 类 呢 ? 答案 很 简单 ， 因 为 有 些 东 西 需要 我 们 做 出 权衡 。 并 行 算法 有 相当 大 的 额外 开 
销 ， 就 好 像 它 开 始 处 理 样本 之 前 ， 需 要 花 一 些 时 间 去 “找到 车 钥匙 ， 然 后 下 到 车 道 "。 即 使 你 可 
以 接受 这 个 时 间 上 的 开销 ， 对 于 某 些 中 等 规模 的 数据 集 ， 串 行 算法 可 能 不 仅仅 是 够 用 ， 而 往往 是 
首选 的 。 这 种 权衡 如 图 13-7 所 示 ， 其 中 比较 了 假设 的 串 行 和 并 行 可 扩展 算法 的 运行 时 间 。 


训练 样本 数目 


优先 选择 品行 算法 优先 选 笃 并 行 算法 
图 13-7 ”对比 两 个 Mahout 分 类 算法 ， 两 种 算法 都 是 可 扩展 的 


在 项 目 规模 较 小 时 ， 串 行 算法 在 时 间 上 比较 有 优势 。 在 中 等 规模 时 ， 两 种 算法 性 能 都 比较 理 
想 。 当 训练 样本 数 变 得 非常 大 时 ， 并 行 算法 要 优 于 串 行 算法 。 

我 们 在 图 13-1 中 解释 过 ， 并 行 算 法 时 间 开 销 曲线 中 锯齿 形状 的 下 降 部 分 是 由 于 添加 了 新 机 器 。 

7. 使 用 学 习 算 法 训练 模型 

确定 并 封装 好 合适 的 目标 变量 和 预测 变量 集 , 并 选 好 了 学 习 算 法 之 后 , 训练 的 下 一 步 就 是 运 
行 训练 算法 来 生成 模型 ( 这 些 步 又 参见 图 13-3 )。 这 个 模型 会 捕获 学 习 算 法 所 能 看 清 的 预测 变量 
与 目标 变量 之 间 关 系 的 本 质 。 

对 于 例 1， 模 型 可 能 是 类 似 下 面 的 伪 代 码 : 


if (x > 0.5) return FILLED; 
else return UNFILLED; 


当然 , 学习 算 法 所 产生 的 真实 模型 并 不 会 以 这 种 方式 实现 , 但 这 展示 了 本 例 中 可 以 工作 的 规 
则 有 多 简单 。 


13.4.2 第 二 阶段 工作 流 : 评估 分 类 模型 


在 生产 中 使 用 分 类 系统 之 前 有 一 个 必要 步骤, 即 确定 它 到 底 能 有 多 好 的 表现 。 要 做 到 这 一 点 ， 
你 必须 评估 该 模型 的 准确 性 ， 并 在 真正 开始 分 类 之 前 做 出 或 大 或 小 的 调整 。 

评估 训练 好 的 模型 通常 并 不 简单 。 第 16 章 详细 介绍 了 在 准备 将 系统 投入 生产 之 前 , 如何 对 模 
型 进行 评估 和 调 优 。13.5 节 有 一 个 循序 渐进 的 例子 ， 你 将 初步 了 解 如 何 评估 。 


13.4.3 ”第 三 阶段 工作 流 : 在 生产 中 使 用 模型 
一 旦 模型 输出 的 准确 性 达到 可 接受 的 范围 ， 我们 就 可 以 对 新 数据 分 类 了 。 生 产 中 分 类 系统 
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的 性 能 取决 于 很 多 因素 ， 最 重要 的 一 个 因素 是 输入 数据 的 质量 。 如 果 需 要 分 析 的 新 数据 预测 变 
量 的 值 不 准确 ， 或 者 新 数据 与 训练 数据 不 一 致 ， 或 外 部 条 件 随 着 时 间 发 生 了 改变 ， 分 类 模型 输 
出 的 质量 都 会 下 降 。 为 避免 这 些 问 题 ， 对 模型 进行 周期 性 的 复 检 是 很 有 用 的 ， 有 时 有 必要 重新 
训练 模型 。 

要 进行 复 检 ， 你 需要 搜集 新 的 样本 ， 并 验证 或 生成 目标 变量 值 。 然 后 可 以 像 第 二 阶段 一 样 ， 
将 这 些 新 样本 作为 测试 数据 ， 比 较 这 些 结果 和 原始 数据 中 保留 用 于 测试 的 数据 集 的 结果 。 如 果 新 
的 结果 明显 恶化 ， 这 就 意味 着 某 些 因素 发 生 了 变化 ， 你 需要 考虑 重新 训练 模型 。 

注意 需要 重新 训练 模型 的 一 个 常见 原因 : 将 模型 集成 到 你 的 系统 时 会 极 大 幅度 地 改变 系统 。 
举 个 例子 ， 如 果 一 家 大 银行 部 署 了 一 个 非常 有 效 的 欺诈 检测 系统 ， 会 怎样 ? 在 数 月 或 数 年 之 内 ， 
骗子 会 慢 慢 适应 并 开始 采用 原始 模型 无 法 检测 的 新 技术 。 在 这 些 新 的 欺诈 方法 造成 重大 损失 之 
前 ， 银 行 的 建 模 人 员 监 测 到 精度 下 降 并 更 新 模型 是 很 重要 的 。 

一 个 分 类 系统 的 性 能 有 所 降低 时 ,并 不 一 定 就 要 放弃 这 种 方法 。 使 用 新 的 、 更 合适 的 训练 数 
据 重新 训练 模型 也 许 就 足够 了 。 另 外 , 对 训练 算法 做 出 某 些 调整 可 能 会 有 用 。 实 时 评估 也 是 重新 
训练 的 一 部 分 ，16.4.1 节 讨论 模型 更 新 时 会 有 更 具体 的 阐述 。 
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现在 你 已 经 掌握 了 一 些 基 本 知识 , 包括 分 类 是 什么 , 以 及 典型 项 目的 工作 流程 。 你 也 看 到 了 
针对 要 处 理 的 问题 ， 仔 细 选 择 用 作 预 测 变量 的 特征 和 选择 待 估计 目标 变量 的 重要 性 。 

虽然 Mahout 的 目标 是 处 理 海量 数据 集 ， 但 先 从 一 个 简单 的 例子 人 手 ， 更 有 助 于 熟悉 Mahout。 
这 一 节 将 带 你 在 小 规模 真实 数据 集 上 用 Mahout 实 现 一 个 分 类 器 。 下 面 我 们 会 介绍 使 用 的 数据 、 如 
何 训练 模型 ， 以 及 如 何 调 优 分 类 器 以 使 其 更 加 准确 。 


13.5.1 数据 和 挑战 


这 一 节 带 你 训练 一 个 分 类 模型 , 来 解决 填充 颜色 的 判定 问题 ; 这 里 使 用 与 前 面 章 节 类 似 的 合 
成 数据 。 在 训练 数据 中 ， 目 标 变量 仍然 是 填充 颜色 ， 有 两 个 类 别 : 填充 和 未 填充 。 在 这 个 数据 集 
中 , 位 置 是 预测 颜色 填充 的 关键 , 我 们 将 使 用 Mahout 中 的 随机 梯度 下 降 (SGD ) 分 类 算法 来 训练 
模型 。 

这 个 DIY 实 践 项 目 中 的 历史 数据 如 图 13-8 所 示 ， 是 Mahout 发 行 版 的 一 部 分 。 为 帮助 你 学 会 使 
用 分 类 ，Mahout 在 包含 示例 程序 的 JAR 文 件 中 集成 了 几 个 这 样 的 数据 集 。 我 们 将 这 类 数据 集 称 为 
甜 面 圈 数 据 (donut data )。 

在 这 个 简单 的 分 类 项 目 中 ， 目 标 变量 是 填充 颜色 ， 你 的 任务 是 构建 一 个 可 以 找到 填充 点 的 
系统 。 
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图 13-8 例 3， 用 于 简单 分 类 项 目的 数据 : 甜 面 圈 数 据 。 请 思考 一 下 ， 哪 些 特征 对 于 寻 
找 填充 点 〈 即 实心 点 ) 有 用 呢 


13.5.2 ”训练 一 个 模型 来 寻找 颜色 填充 : 初步 设想 

在 思考 如 何 为 项 目 训练 模型 时 ， 请 想 想 什么 样 的 预测 变量 会 有 效 。 在 13.3.1 节 讨论 并 示 于 图 
13-4 的 例子 中 ， 关 键 是 位 置 ， 而 非 形 状 。 粗 略 地 看 下 图 13-8 你 就 会 知道 ， 在 这 个 简单 的 数据 集中 
位 置 仍然 是 关键 。 但 是 你 可 能 会 有 些 疑 惑 ， 在 这 个 例子 中 ， 无论 是 x 坐标 还 是 y 坐 标 ,还 是 二 者 的 


组 合 ， 都 不 足以 预测 填充 点 的 位 置 。 
对 于 像 位 置 这 样 的 特征 ， 用 作 变 量 的 方式 不 只 一 种 。 也 许 把 位 置 定义 为 到 特定 点 一 一 如 A、 


B 或 C 一 一 的 距离 会 比较 有 效 ， 如 图 13-9 所 示 。 


图 13-9 如果 用 位 置 作为 这 个 甜 面 圈 数 据 集 的 特征 ， 你 必须 根据 特定 目的 一 一 确定 填 
充 点 一 一 选 定 最 合适 的 位 置 。 在 本 例 中 ， 到 点 C 的 距离 看 起 来 最 有 效 
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尽管 * 和 ?坐标 足以 定位 任何 一 个 点 , 但 需要 预测 一 个 点 是 否 填充 时 , 用 它们 做 特征 并 不 合适 。 
引入 到 点 A、B 和 C 的 距离 重新 表示 位 置 ， 更 易于 为 这 个 数据 集 构建 准确 的 分 类 器 。 有 到 点 C 的 距 
离 就 差不多 了 ,但 你 也 可 以 在 系统 中 加 入 人 额外 的 预测 变量 。 具 体 做 法 将 在 接 下 来 探讨 。 


13.5.3 ”选择 一 个 学 习 算法 来 训练 模型 


Mahout 提 供 了 大 量 的 分 类 算法 ,但 很 多 都 是 为 处 理 海量 数据 而 设计 的 ， 因 此 用 起 来 有 点 麻 
烦 一 一 至 少 在 起 步 阶段 是 这 样 的 。 不 过, 也 存在 一 些 易 于 上 手 的 算法 , 尽管 仍然 保持 了 可 扩展 性 ， 
但 它们 在 小 数据 集 上 的 额外 开销 会 比较 少 。 

用 于 Logistic 回 归 的 随机 梯度 下 降 (SGD ) 算法 就 是 这 样 一 个 低 开 销 的 方法 。 它 是 一 个 串 行 
( 非 并 行 ) 算法 ,但 是正 如 图 13-9 所 示 ， 它 很 快 。SGD 支 持 大 数据 处 理 的 很 重要 一 点 ， 是 它 仅 需 
要 固定 量 的 内 存 ， 而 不 受 输入 规模 的 影响 。 

1. 开始 运行 Mahout 

首先 ， 从 mahout.apache.org 下 载 Mahout 并 解压 。 假设 你 已 经 设 定 环境 变量 MAHOUT_HOME 的 值 
为 解压 后 的 目录 路 径 ， 那 么 可 以 通过 Mahout 的 命令 行 工具 列 出 可 用 的 命令 : 


$ SMAHOUT_HOME/bin/mahout 
An example program must be given as the first argument. 
Valid program names are: 
canopy: : Canopy clustering 
cat : Print a file or resource as the logistic regression models would see 
it 


runlogistic : Run a logistic regression model against CSV data 


trainlogistic : Train a logistic regression using stochastic gradient 
descent 


这 里 我 们 最 为 感 兴趣 的 命令 包括 cat 、trainlogistic 和 runlogistic。 

2. 查看 Mahout 的 内 建 数据 

为 帮助 你 着 手 进行 分 类 ，Mahout 将 一 些 数据 集 作为 资源 纳入 到 包含 示例 程序 的 JAR 文 件 中 ( 参 
见 examples/src/main/resource/ 目 录 )。 当 你 为 SGD 算 法 指定 一 个 输入 时 , 如 果 该 输入 没有 对 应 到 一 个 
现 有 的 文件 ， 但 该 名 称 存在 于 资源 中 ， 训 练 或 测试 算法 会 改 从 资源 中 读 取 该 名 称 所 对 应 的 数据 集 。 

要 列 出 其 中 任何 资源 的 内 容 ， 可 以 使 用 cat 命 令 。 例 如 ， 下 面 的 命令 会 将 图 13-8 所 示 甜 面 圈 
数据 集 的 内 容 列 出 来 : 


$ bin/mahout cat donut.csv 

a p "ya à "shape" F "color" i "k" i "KO" f "xx" z ey" ‘ Wea" P hae r WH" ‘ "en > "bias" 
-923307513352484,0.0135197141207755,21,2,4,8,0.852496764213146,..., ue 
-711011884035543,0.909141522599384,22,2,3,9,0.505537899239772,..., 1 


oo 


-67132937326096,0.571220482233912,23,1,5,2,0.450683127402953,..., 1 
-548616112209857,0.405350996181369,24,1,5,3,0.300979638576258,..., 1 
-677980388281867,0.993355110753328,25,2,3,9,0.459657406894831,..., 1 


wooo 


216 


分 类 


注意 ， 这 里 大 部 分 内 容 都 没有 显示 出 来 ， 而 是 用 省 略 号 (... ) 代替 了 。 这 个 文件 的 第 一 行 指 
定 了 数据 各 个 字段 的 名 称 , 随后 各 行 就 是 数据 本 身 了 。 如 你 所 见 , 我 们 提 到 的 原始 预测 变量 包括 : 
x、y、shape (形状 ) 和 color (颜色 )。x 和 y 是 范围 [0,1] 内 的 数值 ， 而 形状 则 是 范围 [21,25] 内 的 
整数 。 颜色 是 一 个 整数 ， 且 只 能 是 1 或 2。 因 为 用 一 个 正方 形 减 去 一 个 三 角形 没有 意义 ,所 以 我 们 将 
形状 变量 看 做 是 可 分 类 的 。 同 样 ， 颜 色 值 也 应 该 被 视 为 仅 有 两 个 可 能 取 值 的 类 别 变 量 的 数值 编码 。 

除了 xz、Yy、shape 和 color， 这 个 数据 集中 还 有 其 他 变量 ， 以 便 你 在 实验 中 尝试 不 同 的 分 类 
方案 。 这 些 变量 的 描述 详 见 表 13-6。 


3213-6 ”donut.csv 数 据 文件 中 的 字段 


描 ” 述 


可 能 值 


bias 


一 个 点 的 x 坐标 

一 个 点 的 ?坐标 

一 个 点 的 形状 

点 是 否 被 填充 

仅 用 x 和 ?进行 Kmeans 聚 类 所 得 到 的 ID 


用 x、y 和 color 进 行 k-means 聚 类 所 得 到 的 ID 


x 坐标 的 平方 

x 和 y 坐 标的 积 

J 坐 标的 平方 

到 原点 (0,0) 的 距离 
到 点 (1,0) 的 距离 
到 点 (0.5,0.5) 的 距离 
一 个 常量 


3. 使 用 Mahout 构 建 模型 
你 可 以 利用 x 和 y 特 征 构 建 一 个 检测 color 字 段 的 模型 使 用 如 下 命令 即 可 : 


$ bin/mahout trainlogistic --input donut.csv \ 
--output ./model \ 
--target color --categories 2 \ 
--predictors x y --types numeric \ 


--features 20 --passes 100 --rate 50 
color ~ -0.157*Intercept Term + -0.678*x + -0.416*y 
Intercept Term -0.15655 
x -0.67841 
y ~0.41587 


从 0 到 1 的 数值 

从 0 到 1 的 数值 

从 21 到 25 的 形状 代码 
1 表示 “ 空 ”，2 表 示 “ 填 充 ” 
从 1 到 10 的 整 型 簇 ID 
从 1 到 10 的 整 型 簇 ID 
从 0 到 1 的 数值 

从 0 到 1 的 数值 

从 0 到 1 的 数值 
从 0 到 V2 的 数值 
从 0 到 V2 的 数值 
从 0 到 ( V2 )/2 的 数值 
1 


这 条 命令 指定 输入 为 资源 中 名 为 donut.csv 的 数据 集 , 结果 模型 存放 在 文件 ./.model 中 ， 目标 变 
量 在 名 为 color 的 字段 中 且 含 有 两 个 可 能 值 。 命 令 也 指定 了 算法 应 该 将 变量 x 和 y 用 作 预 测 变 量 ， 


二 者 都 是 数值 型 变量 。 余 下 的 选项 指定 了 学 习 算 法 的 内 部 参数 。 
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注意 你 所 看 到 的 实际 输出 可 能 只 有 一 位 有 效 数字 与 此 相同 ， 因 为 该 Logistic 回 归 训 练 算法 采用 
了 某 种 随机 化 机 制 。 


trainlogistic 程 序 所 有 的 命令 行 选项 参见 表 13-7。 


表 13-7 trainlogistic 程 序 的 命令 行 选项 
选 项 说 明 
一 auiet 产生 较 少 的 状态 和 进度 输出 
--input <file-or-resource> 使 用 指定 的 文件 或 资源 作为 输入 
--output <file-for-model> 将 模型 存 人 指定 的 文件 


--target <variable> 使 用 指定 的 变量 作为 目标 

--categories <n> 指定 目标 变量 的 类 别 个 数 

--predictors <v1> ... <vn> 指定 预测 变量 的 名 称 

es bl ses < 给 出 了 预测 变量 的 类 型 列表 。 各 个 类 型 必须 是 数值 、 单 词 或 文本 。 类 型 可 以 缩写 
为 它们 的 第 一 个 字母 。 如 果 给 出 的 类 型 太 少 ， 就 重复 使 用 最 后 一 个 。 用 单词 表示 
类 别 变量 

--passes 指定 训练 过 程 中 对 入 数据 的 复核 次 数 。 小 规模 的 输入 文件 可 能 需要 检验 几 十 遍 ， 
很 大 的 输入 文件 则 可 能 不 需要 完全 检查 

--lambda 控制 算法 在 最 终 模型 中 对 变量 的 抑制 程度 。 值 为 0 表示 不 作为 。 典 型 的 值 在 0.000 
01 或 更 小 的 数量 级 上 

--rate 设 定 初 始 学 习 率 。 如 果 你 有 大 量 数据 或 设 定 了 很 高 的 复核 次 数 ， 可 以 把 它 设 大 一 
点 ， 因 为 它 会 随 着 数据 核查 的 过 程 逐 渐 衰 减 

--noBias 消除 模型 中 的 截 距 项 (一 个 内 建 的 常数 预测 变量 ) 。 有 时 这 会 产生 不 错 的 效果 ， 
但 通常 并 非 如 此 ， 因 为 SGD 学 习 算 法 一 般 能 够 在 必要 时 消除 截 距 项 

--features 设 定 用 于 构建 模型 的 内 部 特征 向 量 大 小 。 在 这 里 较 大 的 值 会 比较 合适 ， 尤 其 是 处 
理 文本 型 输入 数据 时 


13.5.4 ”改进 填充 颜色 分 类 器 的 性 能 


现在 你 已 经 训练 好 了 第 一 个 分 类 模型 ,下 面 来 确定 它 在 估计 填充 颜色 的 任务 中 性 能 如 何 。 这 
个 评估 过 程 不 仅仅 是 为 项 目 评分 ， 更 为 评估 和 改善 分 类 器 以 达到 最 佳 性 能 提供 了 一 条 途径 。 

1. 模型 评估 

注意 , 这 个 问题 中 填充 点 是 完全 被 未 填充 点 包围 的 , 这 意味 着 不 可 能 用 一 个 简单 模型 对 点 进 
行 准确 分 类 ， 比 如 SGD 算 法 使 用 x 和 y 坐 标 生成 的 模型 。 实 际 上 ， 这 个 模型 底层 的 线性 方程 只 能 产 
生 一 个 负 值 ， 在 Logistic 回 归 的 上 下 文中 ， 保 证 不 会 产生 大 于 0.5 的 分 数 。 我 们 将 会 看 到 ， 这 第 一 
个 模型 不 是 很 有 效 。 

模型 训练 好 之 后 ,你 可 以 再 次 在 训练 数据 上 运行 模型 ， 以 评估 其 表现 ( 尽管 我 们 知道 它 的 表 
现 不 会 太 好 )。 
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$ bin/mahout runlogistic --input donut.csv --model ./model \ 
--auc --confusion 

AUC = 0.57 

confusion: [[27.0, 13.0], [0.0, 0.09] 


这 里 的 输出 包括 两 个 我 们 特别 感 兴趣 的 值 。 首 先是 ACU 值 ( Area Under the Curve， 即 曲线 以 
下 的 面积 ,广泛 用 于 评估 模型 质量 )， 在 这 里 为 0.57。ACU 的 范围 可 以 是 从 0 ( 对 应 于 一 个 完全 错 
误 的 模型 ) 到 0.5 (对 应 于 一 个 随机 猜测 的 模型 )， 再 到 1.0( 对 应 一 个 完全 正确 的 模型 )。 此 处 ， 
0.57 这 个 值 意味 着 我 们 的 模型 比 随机 猜测 强 不 了 多 少 。 

要 理解 为 什么 这 个 模型 的 表现 如 此 糟糕 , 你 可 以 从 混淆 矩阵 ( confusion matrix ) 中 找到 线索 。 
混淆 和 矩阵 是 一 个 表 ， 它 比较 实际 结果 与 期 望 结果 。 所 有 得 分 低 于 默认 靖 值 0.5 的 样本 ， 都 被 划 到 
未 填充 类 别 中 。 这 使 得 分 类 器 在 2/3 的 情况 下 是 正确 的 (40 次 里 有 27 次 正确 )， 但 仅 在 未 填充 数据 
上 正确 。 虽 然 模 型 大 部 分 时 候 都 能 得 到 正确 答案 , 但 这 就 好 像 一 个 停止 的 钟 一 天 总 能 有 两 次 指向 
正确 的 时 间 一 样 。 


注意 ”第 15$ 章 会 对 混 消 矩阵 及 其 他 度量 工具 做 详细 介绍 。 


runlogistic 命 令 接受 的 选项 参见 表 13-8。 


表 13-8 ”runlogistic 程 序 的 命令 行 选项 


选 m 说 明 
--quiet 产生 较 少 的 状态 和 进度 输出 
--auc 读 人 数据 后 打印 模型 在 输入 数据 上 的 AUC 分 值 
--scores 打印 每 个 输入 样本 的 目标 变量 值 和 分 数 
--confusion FT ENE BE RAEE (参见 --threshola ) 
--input <input> 使 用 指定 的 文件 或 资源 作为 输入 
--model <model> 从 指定 文件 中 读 人 模型 


2. 构建 一 个 更 有 趣 的 模型 
如 果 使 用 额外 的 变量 进行 训练 ， 你 会 得 到 更 有 趣 的 结果 。 例 如 ， 下面 的 命令 允许 在 建立 模型 
时 使 用 x 和 y， 外 加 a、b 和 c 来 训练 模型 ; 


$ bin/mahout trainlogistic --input donut.csv --output model \ 
--target color --categories 2 \ 
--predictors x ya bc --types numeric \ 
--features 20 --passes 100 --rate 50 


color ~ 7.07*Intercept Term + 0.58*x + 2.32*y + 0.58*a + -1.37*b + -25.06*c 
Intercept Term 7.06759 
a 0.58123 
~1 36893 
-25.05945 
0.58123 
2.31879 


< nou 
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注意 ， 这 个 模型 给 了 c 变 量 很 大 的 权重 ， 而 且 截 距 项 也 较 大 。 如 果 你 忽略 其 他 变量 〈 虽 然 这 
么 做 不 是 非常 合适 ， 但 截 距 项 和 c 在 这 里 占有 绝对 的 主导 权 )， 模 型 线性 部 分 的 输出 会 在 c=0 时 取 
到 最 大 值 11.5， 一 旦 c>0 .3 时 它 就 会 迅速 降 为 负数 。 根 据 我 们 对 这 个 问题 的 了 解 ， 这 在 几何 上 具 
有 显著 的 意义 。 仅仅 基于 这 一 考量 , 就 意味 着 这 个 模型 与 前 面 那个 仅仅 基于 x 和 y、 像 停止 的 钟 一 
样 的 模型 不 一 样 了 。 


Logistic 回归 

Logistic 回归 是 一 种 分 类 模型 ， 其 中 的 预测 变量 的 线性 组 合 被 传递 给 一 个 软 限 制 函数 ， 将 
输出 限制 在 从 0 到 1 的 范围 内 。Logistic 回归 与 其 他 一 些 模型 密切 相关 ， 如 感知 机 ( 软 限制 被 
替换 为 一 个 硬性 限制 )、 神 经 网 络 (使 用 多 层次 的 线性 组 合 和 软 限制 ) 和 朴素 贝 叶 斯 算法 (在 
独立 假设 的 前 提 下 ,根据 特征 频率 严格 限制 线性 权重 ),Logistic 回归 不 能 分 离 所 有 可 能 的 类 别 ， 
但 处 理 维度 很 高 的 问题 时 , 你 可 以 将 一 些 预测 变量 进行 组 合 引 入 新 的 变量 , 这 都 不 是 什么 大 问 
题 。Logistic 回归 在 数学 上 的 简洁 性 使 算法 的 学 习 快 速 有 效 。 


3. 再 次 测试 
在 训练 数据 上 运行 这 个 改进 后 的 模型 ， 你 将 得 到 一 个 与 前 面 模型 大 不 一 样 的 结果 : 


$ bin/mahout runlogistic --input donut.csv --model model \ 
--auc --confusion 

Auc = 1.00 

confusion: [[27.0, 0.0], [0.0, 13.0]] 

entropy: [[-0.1, -1.5], [-4.0, -0.2)] 


现在 AUC 值 已 经 非常 完美 ， 达 到 了 1， 而 且 你 可 以 从 混淆 矩阵 中 看 到 ， 模 型 已 经 能 够 正确 分 
类 所 有 的 训练 样本 。 

4. 用 新 数据 进行 测试 

你 可 以 在 资源 中 的 附加 数据 集 donut-test.csv 上 测试 同样 的 模型 。 因 为 这 部 分 数据 并 未 用 于 训 
练 模型 ， 这 可 能 给 我 们 带 来 一 些 惊喜 。 

$ bin/mahout runlogistic --input donut-test.csv --model model \ 

ie is auc confusion 


confusion: [‘[24.0, 2.0], (3.0, 212.07] 
entropy: [[-0.2, =-2.8], [—4.1, -O.1]] 


在 这 个 留存 数据 集 上 ， 你 可 以 看 到 AUC 值 降 为 0.97， 但 仍然 很 不 错 。 混 消 和 矩阵 显示 40 个 新 样 
本 中 有 5 个 分 类 错误 ,模型 把 2 个 未 填充 点 标记 为 填充 ( 误 报 )，3 个 填充 点 标记 为 未 填充 ( 漏 报 )。 
显然 ， 使 用 额外 的 变量 ， 特 别 是 c， 大 大 改善 了 模型 ， 但 这 里 仍然 存在 一 些 问题 。 图 13-10 展 示 了 
所 发 生 的 事情 。 

注意 图 13-10 中 接近 菱形 底部 的 大 实心 圆 。 这 个 圆 很 接近 训练 集中 的 未 填充 颜色 的 样本 ， 但 
没有 与 训练 集中 的 任何 填充 颜色 的 样本 相 邻 。 因 为 学 习 算 法 不 知道 正确 区 域 的 形状 如 此 奇怪 , 模 
型 几乎 不 可 能 〈 在 这 个 样本 上 ) 得 到 正确 答案 。 
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图 13-10 在 新 数据 集 上 试用 分 类 器 。 原 始 数据 显示 为 浅 色 阴影 ， 新 数据 显示 为 填充 或 
未 填充 。 放 大 的 符号 为 模型 分 类 错误 的 点 。 萎 形 轮廓 显示 了 我 们 实际 用 于 生 
成 甜 面 圈 数 据 集 的 区 域 


5. 尝试 其 他 模型 
你 可 以 选择 其 他 的 变量 集合 ， 来 做 一 些 额外 的 试验 。 例 如 ， 下 面 的 代码 将 x、Y、a 和 b 包 含 
到 预测 变量 集中 ， 但 排除 了 c: 


$ bin/mahout trainlogistic --input donut.csv --output model \ 
--target color --categories 2 \ 
--predictors x y a b --types n --features 20 \ 


--passes 100 --rate 50 


color ~ 4.634*Intercept Term + -2.834*x + 5.558*y + -2.834*a + -6.000*b 
Intercept Term 4.63396 


a -2.83439 
b -5.99971 
x -2.83439 
y 5.55773 
$ bin/mahout runlogistic --input donut-test.csv --model model \ 
--auc --confusion 
AUC = 0.91 
confusion: [[27.0, 13.0], [0.0, 0.0]] 
entropy: [[-0.3, -0.4], [-1.5, -0.7]] 
$ 


尽管 这 次 模型 并 没有 用 上 最 合适 的 变量 ,但 在 留存 数据 集 上 的 性 能 只 是 轻微 下 降 。 这 表明 ， 
c 所 携带 的 信息 也 存在 于 x、y、a 和 pb 中。 

你 也 可 以 在 学 习 模 型 的 参数 上 多 做 一 些 试验 。 这 些 实验 是 第 15 章 中 讨论 的 评估 过 程 的 
开端 。 


13.6 小结 


通过 开发 上 一 节 中 的 示例 程序 ,你 已 经 用 上 了 本 章 中 关于 分 类 前 两 个 阶段 的 知识 :训练 模型 ， 
以 及 评估 模型 并 调 优 性 能 。 如 果 这 是 一 个 真正 的 系统 , 你 的 模型 现在 应 该 可 以 进入 第 三 个 阶段 进 
行 分 类 了 : 将 其 部 署 到 真实 的 生产 环境 中 。 现在, 你 应 该 已 经 熟悉 了 分 类 的 基本 术语 ,而且 对 分 
类 的 概念 以 及 工作 方式 有 了 比较 扎实 的 理解 。 

记 住 , 构建 成 功 的 分 类 器 有 一 点 很 重要 : 用 简单 、 具 体 的 词 项 仔细 地 陈述 问题 ， 从 而 能 够 在 
一 个 预定 义 的 类 别 〈 即 目标 变量 ) 表 中 返回 答案 。 注 意 ， 输 入 数据 中 并 非 所 有 特征 都 同等 有 效 ; 
你 必须 慎重 选择 用 作 预 测 变量 的 特征 , 而 且 需 要 尝试 一 些 组 合 以 便 确认 哪些 有 助 于 提高 分 类 器 的 
PERE. THE, 实践 很 重要 。 

掌握 了 这 些 基 本 思想 ， 回 过 头 来 想 想 品 酒 的 例子 。 对 于 基于 机 器 的 分 类 器 ,其 目标 应 该 是 帮 
助 你 按时 回 家 吃 晚 饭 ， 而 不 是 对 生活 中 那些 美好 事物 做 出 微妙 的 审美 判断 。 

继续 学 习 后 面 的 第 14 章 ~ 第 17 章 ， 你 会 发 现 Mahout 为 海量 数据 分 类 系统 提供 了 强 有 力 的 工 
具 ， 特 别 是 当 数据 集 规模 超过 100 万 样本 时 。 第 14 章 重点 讨论 如 何 从 输入 中 提取 特征 以 供 学 习 算 
法 使 用 ， 这 是 后 面 评 估 、 调 优 训 练 好 的 分 类 器 以 在 生产 环境 中 部 署 分 类 器 的 第 一 步 。 


训练 分 类 器 ， 


本 章 内 容 

口 提取 文本 中 的 特征 

口 转换 特征 为 Mahout 所 用 
口 训练 两 个 Mahout 分 类 器 
口 选择 Mahout 学 习 算 法 


本 章 探讨 分 类 的 第 一 阶段 : 模型 训练 。 开 发 分 类 器 是 个 动态 过 程 ， 要 求 你 创造 性 地 思考 出 描 
述 数据 特征 的 最 佳 方式 , 并 考虑 在 训练 模型 所 选用 的 学 习 算 法 中 如 何 使 用 这 些 数据 特征 。 某 些 数 
据 很 容易 就 可 以 为 分 类 所 用 ， 而 有 些 则 会 给 分 类 工作 带 来 很 大 挑战 ， 让 你 同时 感受 到 诅 霄 、 有 趣 
和 物 有 所 值 。 

在 本 章 中 , 你 将 学 会 挑选 并 有 效 地 提取 各 种 特征 以 构建 Mahout 分 类 器 。 特征 提取 所 涉及 的 工 
作 比 第 13 章 介绍 的 简化 步骤 多 得 多 。 我 们 将 详细 探讨 特征 提取 , 包括 如 何 对 原始 数据 进行 预 处 理 ， 
将 其 变 成 可 分 类 数据 , 以 及 如 何 将 可 分 类 数据 变 成 适用 于 Mahout 分 类 算法 的 向 量 。 我 们 将 以 一 个 
计算 营销 问题 为 例 ， 演 示 如 何 从 数据 库 中 提取 训练 数据 。 

一 旦 理解 如 何 为 分 类 准备 数据 之 后 ,我 们 将 在 14.4 节 给 出 一 个 示例 , 该 示例 利用 Mahout 中 的 
随机 梯度 下 降 (SGD ) 算法 在 一 个 标准 数据 集 20 Newsgroups 上 构建 分 类 器 。 

在 14.5 节 ,我 们 将 介绍 Mahout 分 类 中 的 各 种 学 习 算法 的 特点 , 这 有 助 于 了 解 如 何 根据 具体 项 
目的 特点 选择 最 合适 的 算法 。 在 设计 和 训练 分 类 器 时 , 提取 特征 和 选择 算法 这 两 项 工作 密切 相关 。 
为 了 培养 对 选择 中 不 同 做 法 的 直观 认识 , 我 们 给 出 第 二 个 逐步 介绍 的 例子 ,该 例子 使 用 另 一 种 学 
习 算 法 一 一 朴素 贝 叶 斯 算法 一 一 对 相同 的 数据 进行 处 理 。 

下 面 我 们 先 解释 一 下 如 何 处 理 训练 样本 中 的 数据 。 


14.1 提取 特征 以 构建 分 类 器 


把 数据 变 成 分 类 器 可 用 的 形式 是 一 个 复杂 的 过 程 , 通常 也 很 耗 时 。 我 们 在 这 一 节 会 大 致 介绍 
一 下 其 中 所 涉及 的 工作 。 第 13 章 中 的 图 13-2 展 示 了 如 何 训 练 和 使 用 分 类 模型 ， 而 图 14-1 是 图 13-2 
的 一 个 简化 视图 。 这 里 只 需要 一 步 ， 就 可 以 从 训练 样本 到 达 分 类 模型 的 训练 算法 。 当 然 ， 现 实情 
况 会 更 加 复杂 。 图 14-1 中 还 展示 了 第 13 章 没 提 到 的 重要 细节 。 
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在 图 13-2 中 ， 训 练 数据 到 训练 算法 只 用 了 一 步 。 实 际 上 ， 原 始 数据 必须 经 过 搜集 和 预 处 理 ， 
然后 才能 变 成 可 分 类 的 训练 数据 。 图 14-1 中 的 训练 样本 是 可 分 类 数据 ,我 们 会 在 本 章 讨论 从 原始 
数据 到 可 分 类 数据 的 处 理 过 程 ， 并 在 第 15 章 和 第 16 章 给 出 进一步 的 细节 。 

原始 数据 经 过 预 处 理 变 为 可 分 类 形式 之 后 , 我 们 需要 进行 几 步 操作 来 选择 预测 变量 和 目标 变 
E, 并 将 它们 编码 为 向 量 ， 即 Mahout 分 类 器 所 要 求 的 输入 形式 。 回 想 下 第 13 章 的 内 容 , 特征 中 可 
以 用 作 预 测 变 量 的 值 有 4 种 : 

口 连续 型 ; 

口 类 别 型 ; 

口 单词 型 ; 

口 文本 型 。 


| 带 有 类 别 标记 的 | 
\ 训练 样 本 | 


| 训练 算法 | 


<= ii i ie d y y eee 
TS ie Z 标 变量 / 


第 13 章 中 省 略 的 锚 节 
图 14-1 图 13-2 的 扩展 部 分 。 原 始 数据 必须 经 过 这 些 处 理 ， 然 后 才 可 以 交付 给 训练 算法 


总 体 来 说 , 这 里 对 预测 变量 的 描述 是 正确 的 , 但 它 忽 略 了 一 个 重要 事实 ， 即 无 论 是 在 训练 算 
法 可 以 读 取 的 内 存 还 是 文件 格式 中 , 将 这 些 值 交付 给 训练 分 类 器 的 任何 算法 时 ,都 必须 以 数字 向 
量 的 形式 表示 。 

与 图 14-1 中 经 过 简化 的 序列 相 比 ， 图 14-2 中 多 了 很 多 细节 。 为 了 将 原始 数据 变 成 训练 算法 所 
要 求 的 输入 向 量 ， 要 对 其 进行 一 系列 的 变换 。 这 些 变换 可 以 分 为 两 个 阶段 : 预 处 理 ,， 产生 用 作 训 
练 样本 的 可 分 类 数据 ; 将 可 分 类 数据 转换 成 向 量 。 
连接 ， 合 


| 训练 算法 | 


图 14-2 ”向 量 是 分 类 算法 要 求 的 输入 格式 。 为 了 将 数据 编码 为 向 量 ， 搜 索 原始 数据 时 必 
须要 以 可 分 类 的 单条 记录 形式 来 表示 数据 ， 以 为 解析 和 向 量化 过 程 做 好 准备 
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如 图 14-2 所 示 ， 为 训练 算法 准备 数据 主要 包括 两 步 。 

(1) 原始 数据 的 预 处 理 ” 经 过 重新 组 织 ， 原 始 数 据 变 成 带 有 相同 字段 的 记录 。 为 了 能 够 用 于 
分 类 ， 这 些 字段 可 以 是 4 种 类 型 : 连续 型 、 类 别 型 、 单 词 型 和 文本 型 。 

(2) 将 数据 转换 为 向 量 ”用 自 定义 代码 或 者 Lucene 分 析 器 、Mahout 向 量 编 码 右 之 类 的 工具 对 
可 分 类 数据 进行 解析 和 向 量化 。 有 些 Mahout 分 类 器 自己 也 包含 向 量化 代码 。 

上 述 的 第 二 步 又 可 以 分 为 两 个 阶段 一 一 词 条 化 和 向 量化 。 对 于 连续 变量 而 言 , 解析 工作 可 能 
微不足道 ， 但 对 于 其 他 类 型 的 变量 ， 比 如 类 别 型 、 单 词 型 或 文本 型 变量 ,可 能 要 涉及 向 量化 
操作 。 

本 章 的 后 续 章 节 会 详细 讨论 这 两 步 处 理 。 


14.2 原始 数据 的 预 处 理 


在 特征 提取 的 第 一 阶段 ， 我 们 要 重新 认识 一 下 数据 ， 找 出 可 以 用 作 预 测 变 量 的 特征 。 首 先 ， 
根据 分 类 目标 选择 目标 变量 ,然后 挑选 或 剔除 特征 ， 以 得 到 值得 一 试 的 组 合 。 这 一 步 没有 既定 法 
则 ， 全 和 赁 经 验 进行 猜测 ， 学 习 本 章 示 例 之 后 ， 你 应 该 能 慢 慢 积累 出 自己 的 经 验 。 

本 节 简 要 概述 了 数据 的 预 处 理 过 程 , 包括 搜集 数据 或 重新 将 数据 组 织 成 单条 记录 , 并 从 原始 
数据 中 提炼 出 第 二 层 含 义 ( 比如 将 邮政 编码 转换 为 三 数字 编码 或 用 生日 来 确定 年 龄 )。 在 本 章 的 
示例 当中 ， 预 处 理 并 不 是 主要 部 分 , 这 是 因为 这 里 用 的 数据 集 基 本 上 已 经 做 好 数据 提取 了 。 而 在 
第 16 章 和 第 17 章 中 的 示例 中 ， 预 处 理 扮演 着 更 重要 的 角色 。 


14.2.1 原始 数据 的 转换 


在 找 出 要 尝试 的 特征 之 后 , 必须 先 把 它们 转换 成 可 分 类 的 形式 。 这 个 转换 涉及 将 数据 重新 安 
排 单一 位 置 上 并 将 其 转换 成 合适 的 具有 一 致 性 的 形式 。 


注意 可 分 类 数据 由 具有 相同 字段 的 记录 组 成 字段 的 数据 类 型 为 下 面 4 种 之 一 : 连续 型 、 类 别 
型 、 单 词 型 或 文本 型 。 每 条 记录 都 包含 一 个 训练 样本 的 完全 非 规 范 化 的 描述 。 


乍 一 看 , 这 一 步 好 像 不 需要 做 就 已 经 完成 。 如 果 数 据 看 起 来 像 单词 , 那 特征 肯定 就 是 单词 型 ， 
对 不 对 ? 如 果 数 据 看 起 来 像 数 字 , 那 特征 肯定 是 连续 型 ,对 吧 ? 但 我 们 在 第 13 章 已 经 讲 过 , 第 一 
印象 可 能 会 误导 你 。 比 如 邮政 编码 , 乍 看 像 数 字 , 但 实际 上 是 一 个 类 别 ， 是 一 个 预先 定义 的 类 别 
的 标签 。 包 含 单词 的 东西 可 能 是 单词 型 ， 或 者 最 好 看 成 类 别 型 或 文本 型 。 用 户 ID 或 产品 ID 看 起 来 
可 能 像 数值 、 类 别 或 单词 型 数据 , 但 更 常见 的 做 法 为 了 支持 它们 所 指向 的 用 户 或 产品 的 特性 对 它 
们 进行 非 规 范 化 ( denormalization ) 人 处理 。 

下 面 的 示例 来 自 计 算 营 销 ， 我 们 可 以 将 其 作为 为 分 类 准备 原始 数据 的 练习 。 
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14.2.2 一 个 计算 营销 的 例子 

假设 你 要 构建 一 个 分 类 模型 ,以 确定 用 户 是 否 会 购买 你 向 他 们 提供 的 某 种 产品 。 这 算 不 上 推 
荐 系统 ， 因 为 它 是 根据 用 户 和 产品 的 特性 进行 分 类 ， 而 不 是 根据 相似 用 户 的 集体 行为 ( collective 
behavior ) 进行 分 类 。 

这 个 例子 中 的 数据 库 中 有 几 个 数据 库 表 ， 如 图 14-3 所 示 。 这 些 表 是 高 度 简化 的 零售 系统 的 经 
典 数据 表 。 这 里 有 用 来 表示 用 户 和 产品 的 表 ， 有 一 个 表 记 录 展 示 或 提供 产品 给 用 户 的 时 间 , 还 有 
一 个 表 记 录 展 示 产 品 给 用 户 导 致 的 购买 行为 。 这 些 数据 目前 还 不 能 作为 分 类 器 的 训练 或 测试 数 
据 ， 因 为 它们 分 散在 几 个 表 中 。 


User 上 
birthDate | 
gender Žž f 


Product {- O<j Purchase | 
typeld 1 offerld | 
colorld - O< time : 


的 训练 样本 记录 ， 所 以 原始 数据 的 这 种 组 织 形式 不 能 直接 用 作 训练 数据 


图 14-3 中 展示 的 营销 项 目 有 很 多 种 数据 类 型 。 用 户 有 人 口 统计 数据 ， 比 如 生日 和 性 别 ; 产品 
有 型 号 和 颜色 。 向 用 户 展示 的 产品 数据 记录 在 of fer 表 中 ， 跟 offer 相 关联 的 产品 购买 记录 放 在 
purchase 表 中 。 

图 14-4 中 是 将 这 些 数据 变 成 分 类 器 训练 数据 的 一 种 可 能 方式 。 对 于 offer 表 中 的 每 条 记录 ， 
应 该 都 有 一 条 记录 与 之 对 应 ， 但 要 注意 是 如 何 用 产品 和 用 户 的 ID 来 联结 prodquct 和 user 表 的 。 
在 这 个 过 程 中 , 用 户 的 生日 表示 为 年 龄 。 我 们 用 了 一 个 外 联结 来 推导 产品 展示 到 产品 购买 之 间 的 
时 间 延 迟 ， 并 用 一 个 标志 来 表明 是 否 有 购买 行为 发 生 。 

为 了 将 表 中 数据 表示 为 图 14-4 中 所 示 的 可 用 形式 , 我 们 需要 把 它们 集中 到 一 起 重新 组 织 。 为 
完成 这 个 任务 ， 可 以 像 下 面 这 样 使 用 SQL 查询 : 


select 
now()-birthDate as age, gender, 
typeId, colorId, price, discount, offerTime, 
ifnull(purchase.time, 0, purchase.time - offer.time) as purchaseDelay, 
ifnull(purchase.time, 0, 1) as purchased 
from 
offer 
join user using (userId) 
join product using (productId) 
left outer join purchase using (offerId); 
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目标 变量 


age gender typeld colorId price discount offerTime purchasetelaylourchased! 
A = > arch ff 
k Auser A item 来 自 offer 来 自 purchase 和 offer 


图 14-4 ”为 获得 可 分 类 数据 ， 构 建 训 练 样本 的 数据 来 自 不 同 的 数据 源 ， 通 过 非 规 范 化 形 
成 单条 记录 , 来 描述 实际 发 生 的 情况 。 这 里 还 对 一 些 变 量 做 了 转换 ， 比 如 用 年 龄 
表示 生日 ， 用 延迟 表示 购买 时 间 


该 查询 对 存储 在 不 同 数据 表 中 的 数据 进行 了 非 规范 化 处 理 , 将 所 有 必要 数据 整合 到 一 起 形成 
记录 。 在 这 个 例子 中 ，offer 表 是 主 表 ， 并 有 是 userId、productId 以 及 offerId 上 的 外 键 本 质 
使 得 上 述 查 询 对 offer 表 中 的 每 条 记录 都 恰好 产生 一 条 对 应 记录 。 需 要 注意 的 是 跟 purchase 表 
的 联结 是 外 联结 , 这 样 就 可 以 允许 包含 purchase .time 的 ifnull 表 达 式 在 没有 任何 购买 行为 时 
产生 0 值 。 


注意 有 时 年 龄 更 适合 分 类 ， 而 有 时 生日 却 更 适合 。 比 如 说 ， 在 汽车 事故 的 保险 数据 中 ， 用 年 
龄 做 变量 会 更 好 ， 因 为 与 客户 所 属 的 时 代 相 比 ， 汽 车 事故 跟 客 户 年 龄 段 的 关系 更 大 。 而 
在 购买 音乐 的 数据 中 ， 生 日 可 能 更 有 意义 ， 因 为 人 们 通常 会 保持 自己 早期 对 音乐 的 偏好 ， 
其 对 音乐 的 品味 通常 能 折射 出 他 们 的 时 代 特 征 。 


上 述 查询 语句 产生 的 记录 是 可 分 类 数据 , 可 以 用 于 训练 算法 的 解析 和 向 量化 处 理 过 程 。 向 量 
化 处 理 可 以 由 你 编码 完成 , 或 者 把 这 些 数 据 变 成 Mahout 分 类 器 可 以 接受 的 格式 , 因为 这 些 分 类 器 
通常 有 自己 的 解析 和 向 量化 代码 , 可 以 帮 你 完成 数据 的 解析 和 向 量化 处 理 。 后 续 的 内 容 和 示例 将 
重点 讨论 如 何 对 解析 后 的 可 分 类 数据 做 向 量化 处 理 。 


14.3 ”将 可 分 类 数据 转换 为 向 量 


在 Mahout 中 ，Vector (向量 ) 是 一 种 保存 浮 点 数字 的 数据 类 型 ， 并 且 这 些 浮 点 值 用 整 型 做 
索引 。 本 节 会 告诉 你 如 何 将 数据 编码 为 vector， 解 释 什么 是 特征 散 列 〈feature hashing )， 并 演示 
Mahout API 如 何 进 行 特征 散 列 。 我 们 还 会 看 一 下 如 何 对 不 同类 型 的 变量 值 进行 编码 。 

前 面 有 关 聚 类 的 各 章 中 已 经 介绍 过 了 Vector。 很 多 种 分 类 器 , 特别 是 Mahout 中 用 的 分 类 器 ， 
基本 上 都 是 以 线性 代数 为 基础 ， 因 此 要 求 训 练 数据 以 vector 形式 输入 。 


14.3.1 用 向 量 表示 数据 
怎么 用 Vector 表 示 可 分 类 数据 呢 ?” 表 14-1 中 总 结 了 几 种 办 法 。 
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表 14-1 将 可 分 类 数据 编码 为 向 量 的 办 法 


方 ”法 优 点 R R 用 途 
每 个 单词 、 类 别 或 连续 值 ”没有 冲突 ， 易 于 实 ”需要 扫描 两 次 [一 次 设置 分 量 ， 将 Lucene 索 引导 出 为 Vector 用 
用 一 个 vector 分 量 现 逆 处 理 一 次 设置 值 ], 并 且 向 量 的 长 度 ”于 聚 类 
可 能 不 同 
将 Vector 隐 式 表示 为 词 ”扫描 一 次 ， 没 冲突 ”难以 使 用 线性 代数 基 元 ， 难 以 “用 在 朴素 贝 叶 斯 中 
48 (bags of words ) 表示 连续 值 ， 并 且 必 须 将 数据 
格式 化 为 特殊 的 非 向 量 形式 
用 特征 散 列 扫描 一 次 ， 向 量 大 ”有 特征 冲突 ， 结 果 模 型 解释 起 ”在 onlineLogisticRegression 
小 提前 固定 ， 并 适 ”来 可 能 需要 点 技巧 和 其 他 SGD 学 习 算法 中 
用 于 线性 代数 基 元 


Mahout 中 不 同 分 类 器 使 用 了 表 14-1 中 的 各 种 办 法 。 我们 来 看 一 下 如 何 将 单词 型 、 文 本 型 和 类 
别 型 值 编 码 为 向 量 。 

1. 每 个 词 一 个 分 量 

将 可 分 类 数据 编码 为 Vector 的 一 种 办 法 是 遍历 两 次 训练 数据 : 一 次 确定 必需 的 vector 大 
小 ， 并 构建 一 个 词典 记录 每 个 特征 放 在 Vector 中 的 什么 位 置 ; 一 次 转换 数据 。 这 种 方式 可 以 用 
简单 的 表示 来 编码 训练 和 测试 样本 : 每 个 连续 值 、 每 个 类 别 型 、 单 词 型 和 文本 型 数据 中 的 独立 单 
词 或 类 别 在 向 量 表示 中 都 会 被 分 配 唯一 的 位 置 。 

这 种 方式 明显 的 缺点 在 于 要 扫描 两 次 训练 数据 ， 所 以 可 能 导致 分 类 器 的 训练 计算 成 本 加 倍 ， 
对 于 特别 大 的 数据 集 来 说 这 真是 个 问题 。 

Mahout 中 大 多 数 聚 类 算法 用 的 都 是 这 种 两 次 扫描 的 办 法 。 

2. 将 向 量 作为 词 袋 

另外 一 种 办 法 是 包含 特征 名 称 ， 或 是 名 称 加 上 类 别 型 、 单 词 型 或 文本 型 变量 值 ， 而 不 是 
Vector 对 象 。 这 一 方法 主要 是 用 在 朴素 贝 叶 斯 和 补充 朴素 贝 叶 斯 等 Mahout 分 类 器 中 。 

这 种 办 法 的 优势 是 可 以 不 用 词典 , 但 这 也 意味 着 很 难 利 用 Mahout 的 线性 代数 功能 , 这 些 功能 
要 求 涉及 的 Vector 向 量 长 度 已 知 并 具有 一 致 性 。 

3. 特征 散 列 

基于 SGD 的 分 类 器 无 需 预 先 确定 向 量 的 大 小 ， 只 要 简单 挑 一 个 合理 的 大 小 ， 并 把 训练 数 
据 预 置 进 那个 大 小 的 向 量 中 。 这 种 办 法 称 为 特征 散 列 。 预 置 时 ， 我 们 通过 连续 变量 变量 名 的 
散 列 ， 或 者 类 别 型 、 文 本 型 或 单词 型 数据 的 变量 名 和 类 别名 或 单词 本 身 的 散 列 ， 来 选择 一 个 
或 多 个 位 置 。 

这 种 采用 特征 散 列 的 办 法 有 明显 优势 , 需要 的 内 存 更 少 , 也 可 以 少 扫描 一 次 训练 数据 , 但 对 
向 量 进行 逆向 工程 来 确定 映射 到 向 量 位 置 的 原始 特征 也 更 加 困难 。 这 是 因为 多 个 特征 可 能 会 添加 
散 列 到 同一 个 位 置 。 当 向 量 较 大 ,或 者 每 个 特征 对 应 多 个 位 置 时 ， 这 对 于 精确 性 不 是 什么 问题 ， 
但 可 能 会 为 理解 分 类 器 造成 困难 。 
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14.3.2 ”用 Mahout API 做 特征 散 列 


我 们 在 这 一 节 中 看 一 下 如 何 用 Mahout API 做 特征 散 列 。 我 们 详细 介绍 如 何 对 连续 型 、 类 别 型 、 
单词 型 和 文本 型 特征 编码 。 我 们 还 解释 特征 冲突 的 概念 以 及 它们 对 分 类 器 的 影响 。 

1. 对 连续 型 特征 编码 

连续 值 是 最 容易 编码 的 数据 。 连续 变量 的 值 可 以 直接 加 到 为 存储 它们 而 分 配 的 一 个 或 多 个 位 
置 上 。 这 些 位 置 是 由 特征 的 名 称 确定 的 。 

Mahout 对 连续 值 的 特征 散 列 编码 是 通过 continuousValueEncodez 完 成 的 。 默 认 情 况 下 ， 
ContinuousValueEncoder 只 会 更 新 问 量 中 的 一 个 位 置 , 但 你 可 以 用 setProbes () 方 法 指定 更 
新 的 位 置 数 目 。 要 编码 变量 的 值 ， 需 要 一 个 vector， 此 时 可 以 通过 new RandomAccessSparse 
Vector (lmp .getNumFeatures () ) 建立 一 个 新 向 量 。 然 后 ， 我 们 用 encodqer .addToVector 

(value, vector) 对 值 编 码 。 注 意 ，Mahout 假 定 被 编码 的 值 是 字符 串 。 如 果 被 编码 的 值 是 
double, 一 个 nul1 就 会 被 传 给 string 值 ,并且 该 值 会 被 看 成 权重 ， 即 encodqer .addToVector 
(null, value, vector). 

2. 对 类 别 型 和 单词 型 特征 编码 

对 具有 7z 种 不同 值 的 类 别 特征 编码 ， 我 们 可 以 在 z 个 向 量 位 置 中 保存 一 个 值 1， 标 明 变 量 取 
哪个 值 。 为 了 降低 元 余 性 ， 也 可 能 会 用 n-1 个 位 置 ， 然 后 编码 第 n 个 类 别 的 1 值 根本 就 不 存 (全 
是 0 )。 

特征 散 列 编码 与 此 类 似 ， 但 对 特征 名 和 值 进行 散 列 后 才 得 到 位 置 然后 分 散 到 整个 特征 向 量 
中 。 此 外 , 每 个 类 别 都 可 以 与 几 个 位 置 关 联 。 特 征 散 列 的 另外 一 个 好 处 就 是 可 以 处 理 未 知 的 和 无 
限 的 单词 型 变量 。 

要 用 特征 散 列 法 对 类 别 型 或 单词 型 变量 编码 ， 需要 创建 一 个 WordValueEncoder。 这 个 编码 
器 的 用 法 和 continuousValueEncoder 是 一 样 的 , 不 过 它 默 认 探 测 数 是 2, 而 且 被 更 新 的 位 置 是 
根据 变量 值 及 名 称 而 相应 变化 的 。 有 两 种 编码 器 : AdaptiveWordValueEncoder 在 运行 过 程 中 
构建 词典 ， 以 估计 单词 的 出 现 频率 ， 所 以 能 给 罕见 词 赋予 较 大 的 权重 ; StaticwordValue 
Encodezr 用 已 经 建 好 的 词典 ， 如 果 没 有 词典 ， 就 给 所 有 单词 赋予 相同 的 权重 。 

好 的 单词 权重 会 对 某 些 学 习 算 法 有 极 大 的 帮助 ， 但 也 有 一 些 ， 比 如 后 面 讲 到 的 
onlineLogisticRegression 类 ， 所 有 单词 都 用 相同 的 权重 也 没 多 大 影响 。 

用 相同 的 权重 给 单词 编码 类 似 于 给 连续 值 编 码 。 下 面 是 对 连续 变量 编码 的 示例 代码 : 


FeatureVectorEncoder encoder = 
new StaticWordValueEncoder ("variable-name") ; 


for (DataRecord ex: trainingData) { 
Vector v = new RandomAccessSparseVector (10000) ; 
String word = ex.get("variable-name") ; 
encoder.addToVector (word, v); 


// 使 用 向 量 


这 段 代 码 中 构造 了 一 个 staticwordvalueEncoder， 并 将 用 来 确定 随机 数 生 成 器 种 子 的 名 
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称 传 给 它 。 在 内 部 , 这 个 变量 的 名 称 和 要 编码 的 单词 被 组 合 起 来 , 来 得 到 编码 操作 要 修改 的 位 置 ， 
实现 对 这 些 值 的 编码 。 

向 量 的 大 小 要 通过 实现 来 确定 。 比 较 大 的 向 量 会 消耗 更 多 的 内 存 ， 并 且 训 练 过 程 也 会 变 慢 。 
而 比较 小 的 向 量 最 终 会 导致 太 多 的 特征 冲突 ， 以 致 于 学 习 算 法 无 法 弥补 。 

3. 对 文本 型 特征 编码 

对 文本 型 特征 进行 编码 和 对 单词 型 特征 进行 编码 类 似 ， 只 不 过 文本 中 的 单词 很 多 。 实 际 上 ， 
这 里 的 例子 只 是 简单 地 把 文本 中 单词 的 向 量 表示 释 加 起 来 作为 文本 的 向 量 。 这 种 方法 非常 合适 ， 
但 更 细致 的 做 法 是 先 对 单词 进行 计数 ,然后 产生 每 个 单词 向 量 的 加 权 总 和 , 这样 得 到 的 结果 更 好 。 
我 们 会 在 本 章 后 续 内 容 中 讲解 第 二 种 做 法 。 


提示 文本 型 数据 值 是 单词 的 有 序 序列 ， 但 通常 没 必要 把 单词 在 文本 中 的 顺序 摘 得 太 精 确 。 只 
要 把 单词 在 文本 中 出 现 的 次 数 摘 清楚 就 够 了 ， 不 用 考虑 顺序 。 话 虽 这 么 说 ， 但 通常 文本 
的 最 佳 向 量 并 不 是 以 单词 出 现 次 数 为 权重 的 单词 向 量 总 和 ， 而 是 以 单词 出 现 次 数 的 某 种 
函数 为 权重 。 最 常用 的 权重 函数 是 平方 根 、 对 数 ， 或 不 管 单 词 出 现 的 频率 ， 只 要 出 现 就 
赋予 相同 的 权重 。 代码 清 单 14-1 中 的 例子 出 于 对 简单 性 的 考虑 用 了 线性 权重 , 但 对 于 大 多 
数 应 用 程序 而 言 ， 以 数值 的 对 数 作 为 权重 通常 是 更 好 的 起 点 。 


代码 清单 14-1 展 示 了 如 何 对 文本 中 的 所 有 单词 进行 编码 , 然后 产生 每 个 单词 编码 的 线性 权重 
之 和 ， 从 而 将 文本 编码 为 向 量 。 这 是 用 staticwordvalueEncoder 实 现 的 ， 并 且 还 要 有 办 法 将 
文本 分 解 或 分 析 成 单词 。Mahout 提 供 了 编码 器 ，Lucene 提 供 了 分 析 器 。 


代码 清单 14-1 文本 的 词 条 化 和 向 量化 


FeatureVectorEncoder encoder = new StaticWordValueEncoder ("text"); 
Analyzer analyzer = 
new StandardAnalyzer (Version.LUCENE_31); < 一 一 将 文本 分 割 为 单词 


StringReader in = new StringReader("text to magically vectorize"); 
TokenStream ts = analyzer.tokenStream("body", in); 
TermAttribute termAtt = ts.addAttribute(TermAttribute.class) ; 


Vector vl = new RandomAccessSparseVector (100); <— 编码 进 大 小 为 100 的 向 量 
while (ts.incrementToken()) { 

char[] termBuffer = termAtt.termBuffer(); 

int termLen = termAtt.termLength(); 


String w = new String(termBuffer, 0, termLen); 
encoder.addToVector(w, 1, vl); < 将 单词 w 加 到 向 量 v 中 
} 


System.out.printf("%s\n", new SequentialAccessSparseVector(vl)); 
这 段 代码 会 产生 向 量 的 可 输出 形式 : 
{8:1.0,212'1..0,6721.0,77:1.0,87:21.0,86:21.0) 


这 个 输出 的 图 形 化 形式 如 图 14-5 所 示 。 
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在 向量 中 的 位 置 


“text” 的 编码 “vectorize” 的 编码 


向 量 中 的 站 0 元 素 


图 14-5 对 “text to magically vectorize” 编 码 的 向 量 。 这 个 向 量 中 有 6 个 非 0 值 ， 向 量 大 小 为 
100。 等 于 0 的 值 没 有 保存 ， 因 此 也 没 像 Lucene 标 准 分 析 器 产生 的 结果 那样 显示 出 来 


如 图 14-5 所 示 ， 位 置 8 和 21 是 单词 text 的 编码 ，77 和 88 是 vectorize 的 编码 ，67 和 88 是 magically 
的 编码 。 单 词 to 被 Lucene 标 准 分 析 器 去 掉 了 。 这 一 过 程 的 最 终结 果 是 个 稀疏 向 量 ， 其 中 的 0 值 根 
本 不 会 保存 。 

4. 特征 冲突 

数据 的 散 列 特征 表示 可 能 会 把 不 同 的 变量 或 单词 存在 相同 的 位 置 ， 从 而 引发 冲突 。 比 如 说 ， 
如 果 你 在 前 面 的 例子 中 用 了 一 个 长 度 为 20， 而 不 是 100 的 向 量 ， 那 对 “text to magically encode” 
编码 的 结果 值 可 能 是 这 样 的 : 

{1:1.0,7:2.0,8:2.0,17:1.0} 

在 这 个 向 量 中 ， 位 置 7 和 8 的 值 不 再 是 1， 变 成 了 2， 像 图 14-5 中 显示 的 所 有 非 0 单元 一 样 。 这 
个 向 量 如 图 14-6 所 示 。 


在 向 量 中 的 位 置 


"text" "magically" "vectorize" 


向 量 中 的 非 0 元 素 


图 14-6” 当 向 量 的 长 度 不 再 是 100， 变 成 20 时 ， 冲 突出 现 了 。 单 词 text 和 magically 在 位 
置 8 上 冲突 了 ，magically 和 vectorize 在 位 置 7 上 冲突 了 。 这 些 冲 突 使 结果 向 量 更 
难 解释 ， 但 通常 它们 不 会 影响 分 类 的 准确 性 


处 理 特征 冲突 以 避免 对 性 能 造成 影响 非常 简单 。 在 图 14-6 显 示 的 向 量 中 ， 单 词 text 被 编码 在 
位 置 1 和 8, magically 在 位 置 7 和 8, vectorize 在 位 置 7 和 17。 也 就 是 说 , text 和 magically 共 享 了 位 置 8， 
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vectorize 和 magically 共 享 位 置 7。 所 以 位 置 7 和 8 的 值 是 2， 而 其 他 非 0 值 都 是 1。 因 为 每 个 单词 都 被 
赋予 了 两 个 位 置 ， 所 以 学 习 算 法 能 通过 学 习 弥 补 这 些 冲突 。 

在 这 个 例子 中 ,学 习 算 法 可 以 弥补 这 些 冲突 ， 因为 从 单词 到 向 量 的 转换 是 可 道 的。 通常 不 太 
可 能 每 个 单词 都 有 单一 位 置 ， 因 为 向 量 的 维度 几乎 总 是 比 文本 中 的 词汇 量 小 。 尽 管 有 多 个 位 置 ， 
这 种 向 量化 技术 通常 都 很 管用 ， 其 原因 跟 布 隆 过 滤器 能 用 的 原因 一 样 。 

两 个 单词 之 间 在 哪里 出 现 冲突 对 于 分 类 器 来 说 有 很 大 的 差别 , 这 两 个 单词 不 太 可 能 在 别 的 位 
置 上 也 发 生 冲 突 , 也 不 太 可 能 和 第 三 个 单词 发 生 冲 突 。 因 此 , 通常 这 种 向 量化 方式 很 好 用 ,并 且 
如 果 向 量 长 度 选 得 足够 大 , 不 会 有 明显 的 准确 率 损失 。 找 出 确切 的 向 量 长 度 要 用 到 第 16 章 中 的 评 
佑 技术 ， 通 过 评估 可 以 进行 实证 性 验证 。 

接 下 来 ， 我 们 会 用 SGD Mahout 分 类 算法 在 一 些 真 实数 据 上 尝试 这 些 办 法 。( 14.5 节 会 讨论 不 
同 的 Mahout 分 类 算法 ，14.6 节 会 用 另 一 种 Mahout 算 法 对 相同 的 数据 集 进行 分 类 。) 


14.4 用 SGD 对 20 Newsgroups 数据 集 进 行 分 类 


我 们 在 这 一 节 用 SGD 学 习 算法 为 20 Newsgroups 数 据 集 构建 一 个 分 类 模型 。 在 这 个 例子 中 ， 
我 们 会 对 数据 进行 预览 ， 并 做 初步 的 分 析 ，, 分 析 哪 些 是 最 常见 的 文件 头 , 通过 解析 和 词 条 化 处 理 
将 数据 转换 为 向 量 ， 并 为 20 Newsgroups 数 据 集 项 目 编写 训练 代码 。 


注意 20 Newsgroups 数 据 集 是 机 器 学 习 研 究 中 常用 的 标准 数据 集 。 这 些 数据 是 20 世 纪 90 年 代 早 
期 20 个 Usenet 新 闻 组 上 几 个 月 消息 的 副本 。 


这 个 例子 重点 强调 特征 提取 , 并 且 集 中 关注 特征 提取 的 第 二 阶段 ， 即 向 量化 处 理 。 之 所 以 用 
20 Newsgroups 数 据 集 ， 这 是 因为 对 这 些 数 据 做 特征 提取 的 第 一 阶段 ， 即 将 原始 数据 转换 为 可 分 
类 数据 的 预 处 理 过 程 相对 简单 一 一 创建 该 数据 集 的 研究 人 员 已 经 完成 了 大 部 分 工作 。 


14.4.1 开始: 数据 集 预 览 


准备 数据 集 的 第 一 步 就 是 检查 数据 , 并 确定 哪些 特征 可 能 有 助 于 将 样本 分 到 选 定 目标 变量 的 
类 别 中 。( 在 这 里 ， 目 标 变量 就 是 20 个 新 闻 组 中 的 每 一 个 。) 

首先 , 从 http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz 处 下 载 20 Newsgroups 
数据 集 。 根 据 日 期 ， 该 版 本 数据 集 被 划分 成 训练 数据 和 测试 数据 ， 并 保留 了 所 有 数据 的 文件 头 
(header line )。 在 真实 场景 中 ， 分 类 器 一 般 都 用 来 处 理 新 数据 ， 而 非 旧 数据 ， 按 日 期 划分 的 好 处 
就 在 于 它 更 贴近 真实 场景 。 

如 果 你 查看 训练 数据 目录 下 的 某 个 文件 ， 比 如 20newsbydate-train/sci.crypt15524， 应 该 能 看 
到 下 面 这 种 内 容 : 


From: rdippold@qualcomm.com (Ron "Asbestos" Dippold) 
Subject: Re: text of White House announcement and Q&As 
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Originator: rdippold@qualcom. qualcomm.com 
Nntp-Posting-Host: qualcom.qualcomm.com 
Organization: Qualcomm, Inc., San Diego, CA 
Lines: 12 


ted@nmsu.edu (Ted Dunning) writes: 

>nobody seems to have noticed that the clipper chip *must* have been 
>under development for considerably longer than the 3 months that 
>clinton has been president. this is not something that choosing 


20 Newsgroups 数 据 集 是 由 消息 组 成 的 ， 每 个 文件 一 条 。 每 个 文件 都 从 文件 头 开 始 ， 指 明了 
消息 是 由 谁 发 送 的 ， 有 多 长 ,用 的 什么 软件 ， 以 及 消息 的 主题 是 什么 之 类 的 信息 。 接 着 是 一 个 空 
白 行 ， 然 后 是 无 格式 文本 的 消息 体 。 

这 种 数据 的 预测 特征 或 者 在 文件 头 中 , 或 者 在 消息 体 中 。 所 以 先 检 查 所 有 文档 中 文件 头 的 不 
同 字段 出 现 的 次 数 。 这 可 以 帮 有 我 们 确定 哪些 是 最 常用 因此 很 可 能 影响 许多 文档 的 分 类 结果 的 
字段 。 

因为 这 些 文档 格式 简单 ， 像 下 面 这 种 bash 脚 本 就 能 统计 出 各 种 文件 头 的 出 现 次 数 : 


#!/bin/bash 
export LC_ALL='C' 
for file in 20news-bydate-train/*/* 
do 
sed -E -e '/*S/,$d' -e 's/:.*//' -e '/*[[:space:]]/d' $file 
done | sort | uniq -c | sort -nr 


这 个 脚本 会 扫描 训练 数据 集中 的 所 有 文件 ， 发 现 第 一 个 空白 行 后 就 把 后 面 的 所 有 文本 删除 ， 
剩余 行 中 冒号 后 面 的 内 容 也 会 删 掉 。 此 外 , 文件 头 中 以 空格 开头 接续 上 一 行内 容 的 文本 行 也 会 删 
掉 。 然 后 ， 它 对 sea 中 剩 下 的 输出 进行 排序 、 计 数 ， 然 后 再 根据 计数 的 结果 按 降序 进行 排序 。 

训练 样本 中 文件 头 的 计数 汇总 如 表 14-2 所 示 。 标 记 为 “…” 的 那 一 行 表明 ， 我 们 跳 过 了 中 间 
行 ， 直 接 展示 列表 最 后 那些 稀奇 古怪 的 例子 。 "动作 ”列表 明 根据 文件 头 的 潜在 价值 可 能 要 执行 
哪些 操作 。 可 选 的 操作 是 在 解析 过 程 中 抛弃 没 价 值 的 文件 涉 ( 丢弃)， 留 下 可 能 有 用 的 (保留 )， 
或 者 尝试 价值 不 太 明 确 的 ( 尝试 ? )。 作 用 尚 不 明确 的 数据 很 值得 一 试 ， 因 为 最 终 可 能 会 证 明 它 
非常 有 价值 。 也 许 我 们 应 该 把 它们 标记 为 “一 定 要 试 一 下 1”。 


表 14-2 20 Newsgroups 文 章 中 最 常见 的 文件 头 。 不 过 ， 其 中 也 有 一 些 不 太 常见 的 


文 件 头 计 A & 注 动 作 
标题 11314 ”文本 保留 
源 自 11314 ”消息 的 发 送 者 保留 
行 数 11311 消息 的 行 数 保留 
组 织 10841 = 跟 发 送 者 相关 尝试 ? 
分 发 2533 潜在 的 目标 泄漏 尝试 ? 
Nntp 发 帖 主 机 2453 跟 发 送 者 相关 尝试 ? 


NNTP 发 帖 主机 2311 跟 上 面 那个 一 样 ， 只 是 变 成 了 大 写 尝试 ? 
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( 续 ) 
x 件 头 计 数 备 注 动 作 

回复 1720 可 能 是 个 线索 ， 不 太 常 见 ， 可 以 试验 一 下 尝试 ? 
关键 词 926 内 容 描述 保留 
文章 -LD. 673 太 具 体 了 丢弃 
X-Newsreader 588 发 送 者 用 的 软件 EF 
总 结 391 跟 “ 关 键 词 ”类 似 保留 
始 发 291 跟 “ 源 自 ”类 似 ， 但 不 太 常见 EF 
在 回复 中 219 很 可 能 只 是 个 ID ， 很 少见 EF 
新 闻 软 件 164 发 送 者 用 的 软件 丢弃 
过 期 时 间 113 具体 日 期 ， 很 少见 EF 
在 回复 中 101 很 可 能 只 是 个 ID ， 很 少见 EF 
致 80 潜在 的 目标 泄漏 ， 很 少见 EF 
X-Disclaimer 64 噪声 ， 很 少见 丢弃 
免责 声明 56 因为 跟 新 闻 组 的 偏好 程度 有 关 ， 可 以 作为 潜在 的 线索 ， 很 少见 丢弃 
天 气 1 奇怪 的 文件 头 丢弃 
Orginization 1 文件 头 中 出 现 拼写 错误 很 奇怪 EF 
Oganization 1 好 吧 ， 可 能 不 是 EF 
Oanization 1 EF 
Moon-Phase ( 月 相 ) 1 也 是 ， 有 个 帖子 中 真有 这 个 ; 开源 就 是 这 么 精彩 12! 


很 多 文件 头 可 能 都 没什么 价值 ， 也 有 很 多 出 现 的 次 数 太 少 ， 所 以 基本 没什么 影响 。 表 14-2 把 
Subjects、From、Lines、keywords 和 Summary 作 为 可 能 感 兴趣 的 特征 文件 头 。 它 们 经 常 出 现 ， 而 
且 看 起 来 很 可 能 跟 文 档 的 内 容 相关 。 其 中 比较 奇怪 的 是 Lines， 实 际 上 它 是 和 内 容 相关 的 ， 因 为 
有 些 新 闻 组 可 能 习惯 于 发 比较 长 的 文档 ， 而 有 些 则 一 般 发 比较 短 的 。 


提示 数据 的 初步 分 析 对 于 分 类 能 否 成 功 至 关 重 要 。 有 时 候 这 种 分 析 很 有 意思 ， 会 有 彩蛋 出 现 ， 
比如 表 14-2 中 的 Moon-Phase 文 件 头 。 这 些 惊喜 对 于 构建 分 类 器 可 能 也 很 重要 , 因为 它们 经 
常 能 揭示 数据 中 的 问题 ， 或 让 你 产生 很 关键 的 见解 ， 从 而 简化 分 类 问题 。 要 尽早 可 视 化 ， 
并 且 要 经 常 可 视 化 。 


注意 ，20 Newsgroups 示 例 中 的 数据 是 精心 准备 的 ， 所 以 很 容易 用 于 测试 分 类 器 。 因 此 ， 它 
有 些 理想 化 了 。 因 为 所 有 数据 都 在 一 起 ,并且 所 有 明显 的 目标 泄漏 都 已 经 被 去 掉 了 ， 所 以 你 不 需 
要 对 它们 进行 预 处 理 ， 可 以 直接 进行 文本 分 析 。 
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14.4.2 20 Newsgroups 数 据 特征 的 解析 和 词 条 化 


为 学 习 算 法 准备 数据 的 第 二 阶段 是 将 可 分 类 数据 ( 四 种 可 能 类 型 ) 转换 为 向 量 。 在 20 
Newsgroups 数 据 集中 ， 除 了 Lines， 所 有 数据 字段 都 是 文本 型 或 单词 型 ， 其 格式 看 起 来 用 标准 的 
Lucene 词 条 化 工具 就 可 以 轻松 完成 词 条 化 。Lines 字 段 是 数字 , 也 能 用 Lucene 词 条 化 工具 解析 。 看 
起 来 这 个 字段 对 于 区 分 某 些 新 闻 组 非常 有 价值 ， 因 为 talk.politics.* 小 组 每 条 消息 的 平均 行 数 约 为 
60， 而 misc.forsale 中 文档 的 平均 行 数 只 有 25。 


14.4.3 20 Newsgroups 数 据 的 训练 代码 


ca 现在 可 以 建 模 型 了 。 为 了 简单 起 见 ， 我 们 在 这 个 例子 中 要 用 前 面 对 点 进行 分 类 时 用 过 的 
No 13 OnlineLogisticRegression 算 法 。 但 这 一 次 是 要 从 Java 代 码 中 运行 分 类 器 , 而 不 是 用 命令 行 ， 
所 以 能 看 到 提取 特征 和 向 量化 的 过 程 。 


Logistic 回 归 分 类 器 一 览 

Logistic 回 归 分 类 器 将 输入 值 进行 线性 组 合 后 用 Logistic 函 数 1/(1+e 习 将 值 压缩 到 (0, 1) 区 间 
之 内 。Logistic 回 归 模 型 的 输出 一 般 都 可 以 解读 为 概率 估算 值 。 此 外 ， 即 便 特 征 向 量 的 维度 很 
高 ， 线 性 组 合 中 所 用 的 权重 也 可 以 通过 增 量 方式 高 效 计算 。 因 此 Logistic 回 归 经 常用 于 可 扩展 
的 串 行 学 习 中 。Logistic 回 归 接 受 的 特征 必须 为 数字 形式 ， 所 以 文本 、 单 词 和 类 别 型 变量 值 必 
须 编 码 成 向 量 格式 。 


1. 建立 向 量 编码 器 
首先 需要 有 对 象 把 文本 和 行 数 转 成 向 量 值 ， 代 码 如 下 所 示 : 


Map<String, Set<Integer>> traceDictionary = 
new TreeMap<String, Set<Integer>>(); 
FeatureVectorEncoder encoder = new StaticWordValueEncoder ("body") ; 
encoder.setProbes (2) ; 
encoder.setTraceDictionary (traceDictionary) ; 
FeatureVectorEncoder bias = new ConstantValueEncoder ("Intercept") ; 
bias.setTraceDictionary (traceDictionary) ; 
FeatureVectorEncoder lines = new ConstantValueEncoder ("Lines"); 
lines.setTraceDictionary (traceDictionary) ; 
Dictionary newsGroups = new Dictionary(); 
Analyzer analyzer = new StandardAnalyzer (Version. LUCENE_31) ; 


在 这 段 代码 中 ,3 类 数据 分 别 由 3 种 编码 器 处 理 。 第 一 个 编码 器 encoder 用 来 对 帖子 标题 和 主 
体内 容 中 的 文本 编码 。 第 二 个 编码 器 bias 提 供 了 一 个 常数 偏 移 量 ， 模 型 可 以 用 它 于 对 每 类 的 平 
均 频 率 进行 编码 。 第 三 个 是 1ines， 用 来 对 消息 的 行 数 编码 。 

因为 onlineLogisticRegression 类 在 训练 过 程 中 希望 得 到 目标 变量 的 整 型 ID ， 所 以 还 需 
要 用 一 部 词典 把 目标 变量 〈 新闻 组 ) 转 成 整 型 值 ， 该 词典 就 是 newsGroups 对 象 。 

2. 配置 学 习 算 法 

可 以 像 下 面 这 样 配置 Logistic 回 归 学 习 算 法 : 
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OnlineLogisticRegression learningAlgorithm = 
new OnlineLogisticRegression ( 

20, FEATURES, new L1()) 
.alpha(1).stepoffset (1000) 
.decayExponent (0.9) 

. lambda (3 .0e-5) 
. learningRate (20) ; 


FIRA te PRES LAG: 指定 的 目标 变量 类 别 的 个 数 、 特 征 向 量 的 大 小 及 正则 化 
项 ( regularizer )。 此 外 ， 学 习 算 法 中 还 有 一 些 配置 方法 。 其 中 ，alpha、adqecayExponent 和 
stepOffset 方 法 可 以 指定 学 习 率 及 衰减 率 和 衰减 方式 。lambqa 方 法 指定 正则 化 的 权重 ， 
learningRate 方 法 指定 初始 学 习 率 。 

在 生产 模型 中 , 学 习 算法 需要 运行 成 百 上 千 次 才能 找到 比较 理想 的 取 值 。 为 了 确定 比较 合理 
的 取 值 ， 我 们 在 这 里 做 了 几 个 快速 试验 。 

3. 访问 数据 文件 

接着 需要 得 到 所 有 训练 数据 文件 的 清单 ， 代 码 如 下 所 示 : 


List<File> files = new ArrayList<File>(); 

for (File newsgroup : base.listFiles()) { 
newsGroups. intern (newsgroup.getName()); 
files.addAll (Arrays .asList (newsgroup.listFiles())); 

} 


Collections.shuffle(files) ; 
System.out.printf("%d training files\n", files.size()); 


这 段 代 码 把 所 有 新 闻 组 的 名 字 都 放 到 词典 中 。 像 这 样 预定 义 的 词典 内 容 , 可 以 确保 词典 中 的 
条 目 是 以 稳定 并 且 可 识别 的 顺序 存放 的 。 这 有 助 于 在 多 次 训练 过 程 运行 结果 之 间 进 行 比较 。 

4. 数据 词 条 化 前 的 预备 工作 

这 些 文件 中 的 大 部 分 数据 都 是 文本 型 ， 因 此 可 以 使 用 Lucene 来 做 词 条 化 处 理 。 使 用 Lucene 会 
比 基 于 空格 或 标点 符号 的 简单 分 割 要 好 , 这 是 因为 Lucene 的 standardanalyzer 类 能 够 正确 地 处 
理 一 些 特殊 词 条 ， 如 电子 邮件 地 址 。 

你 也 需要 多 个 变量 来 累积 运行 过 程 中 的 平均 值 , 这 些 变量 包括 平均 对 数 似 然 、 正 确 率 、 文 档 
行 数 和 处 理 的 文档 数目 等 : 


double averageLL = 0.0; 

double averageCorrect = 0.0; 
double averageLineCount = 0.0; 
int: k = Oy 

double step = 0.0; 

int({] bumps = new int[]{1, 2, 5}; 
double lineCount; 


这 些 变量 有 助 于 度量 学 习 算法 的 进度 和 性 能 。 

5. 读 取 数 据 并 进行 词 条 化 处 理 

经 过 前 面 那些 准备 工作 ， 现 在 你 已 经 可 以 处 理 数据 了 。 因 为 在 线 Logistic 回 归 算法 学 得 很 快 ， 
所 以 我 们 只 需要 扫描 一 遍 数 据 。 只 扫描 一 次 对 进度 评估 也 有 好 处 ， 因 为 在 将 文档 用 作 训练 数据 之 
前 ， 可 以 用 当前 状态 的 分 类 器 逐一 对 它们 进行 测试 。 
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在 真正 的 学 习 过 程 中 ， 文 档 是 以 随机 顺序 处 理 的 ， 所 以 来 自 不 同 新 闻 组 的 样本 会 混在 一 起 。 
将 训练 数据 以 随机 顺序 交付 给 分 类 器 ， 可 以 使 onlineLogisticRegression 算 法 更 快 收敛 到 某 
个 结果 。 具 体 做 法 如 下 所 示 : 


代码 清单 14-2 解析 数据 


for (File file : files) { 
BufferedReader reader = new BufferedReader (new FileReader(file)); 
String ng = file.getParentFile() .getName() ; 
int tual = sGro -intern (ng); 5 
in ac ua Tiew ups.i (ng) : 6 识别 新 闻 组 
Multiset<String> words = ConcurrentHashMultiset.create()j; 


String line = reader.readLine(); 
while (line != null && line.length() > 0) { fees 
if (line.startsWith("Lines:")) { 


String count = Iterables.get(onColon.split(line), 1); 

try í 
lineCount = Integer.parseInt (count); 
averageLineCount += (lineCount - averageLineCount) 

/ Math.min(k + 1, 1000); 

} catch (NumberFormatException e) { 
lineCount = averageLineCount; 

} 

} 


boolean countHeader = ( 


line.startsWith("From:") || line.startsWith("Subject:") | | 
line.startsWith("Keywords:")|| line.startsWith("Summary:") ) ; 
do { 
StringReader in = new StringReader (line); 
if (countHeader) { 9 计算 文件 头 中 单词 的 数量 
countWords (analyzer, words, in); 


} 
line = reader.readLine(); 
} while (line.startsWith(" ")); 
} 2? 计算 内 容 主体 中 单词 的 数量 
countWords (analyzer, words, reader); 
reader.close(); 


} 

用 文件 名 判断 每 篇 文档 所 属 的 新 闻 组 @。 文件 关中 有 一 行 给 出 了 文档 的 行 数 ， 而 行 数 可 以 编 
码 为 特征 人 @。 然 后 ， 解 析 文 件 头 全 和 文档 的 主体 @， 我 们 需要 对 找到 的 单词 计数 。 这 里 可 以 用 
Google Guava 类 库 中 的 multi-set 来 做 计数 工作 。 这 些 文档 中 至 少 有 一 篇 的 行 数 是 假 的 ， 在 这 种 情 
况 下 ， 为 保险 起 见 ， 将 行 数 设 置 为 总 体 的 均值 是 一 个 比较 合理 的 做 法 。 

每 篇 文档 都 是 以 文件 头 开 始 的 , 文件 头 的 每 一 行 都 是 由 文件 头 名 、 分 号 、 内 容 组 成 ， 有 些 文 
件 头 可 能 不 止 一 行 , 接续 的 内 容 换行 后 前 面 会 有 一 个 空格 。 行 数 以 及 选 定 文件 头 行 的 单词 数 要 作 
为 特征 处 理 。 在 文件 头 处 理 完 后 ， 文 档 的 主体 要 经 过 Lucene 分 析 器 (analyzer) 的 处 理 。 

6. 数据 的 向 量化 

得 到 文档 中 的 数据 之 后 , 你 可 以 将 所 有 特征 收集 到 一 个 特征 向 量 中 ,以 供 分 类 器 的 学 习 算法 
使 用 。 下 面 是 完成 这 一 任务 的 代码 : 
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Vector v = new RandomAccessSparseVector (FEATURES) ; 

bias.addToVector(null, 1, v); 

lines.addToVector(null, lineCount / 30, v); 

logLines.addToVector(null, Math.log(lineCount + 1), v); 

for (String word : words.elementSet()) { 
encoder.addToVector(word, Math.log(1 + words.count(word)), v); 


} 

首先 ， 对 bias (常量 ) 进行 编码 ， 它 的 值 始终 是 1。 学 习 算 法 可 以 利用 该 特征 作为 靖 值 。 如 
果 没 有 这 样 一 个 bias， 有 些 问题 就 没 办 法 用 Logistic 回 归 解 决 。 

行 数 同时 编码 为 原始 形式 和 对 数 形式 ， 除 以 30 可 以 把 行 长 度 放 人 和 其 他 输入 几乎 一 样 的 区 
间 ， 以 便 加 快 学 习 进 程 。 

文档 主体 的 编码 与 此 类 似 , 但 文档 中 每 个 单词 的 权重 依据 单词 在 文档 中 出 现 频率 的 对 数 来 确 
定 ， 而 不 是 直接 使 用 频率 。 这 样 做 是 因为 单词 在 单 篇 文档 中 出 现 多 次 的 频率 , 要 比 单词 出 现 的 预 
期 整体 频率 要 高 。 正 是 基于 这 种 考虑 ， 我 们 使 用 了 频率 的 对 数 。 

7. 评估 当前 进度 

此 时 ,你 应 该 拥有 了 一 个 可 以 交付 给 学 习 算 法 的 向 量 。 直 到 现在 ,我们 仍然 可 以 认为 文档 
中 的 数据 没有 完全 被 提炼 出 来 。 因此， 可 能 你 还 可 以 用 这 些 数据 得 到 一 些 关于 分 类 器 准确 度 的 
反馈 ， 甚 至 有 望 做 出 改善 。 这 里 有 两 个 可 以 衡量 准确 性 的 指标 : 对 数 似 然 值 和 正确 分 类 的 平均 
比例 。 

对 数 似 然 值 最 大 为 0， 在 对 20 种 候选 答案 进行 随机 猜测 时 ， 其 结果 应 该 接近 -3。 即 便 分 类 器 
给 出 错误 答案 , 但 只 要 正确 答案 的 排名 靠 前 ， 对 数 似 然 也 会 给 一 些 分 值 。 而 即使 分 类 器 给 出 正确 
ER, 但 如 果 有 一 个 错误 答案 的 得 分 几乎 和 该 正确 答案 一 样 高 ,对 数 似 然 就 会 减 掉 一 些 分 值 。 对 
数 似 然 值 这 种 但 求 近似 不 求 完全 命中 的 特性 , 使 得 它 特别 适合 作为 性 能 测试 的 指标 。 但 跟 没有 技 
术 背 景 的 同事 解释 对 数 似 然 也 实在 让 人 头疼 , 所 以 我 们 还 是 需要 更 简单 的 指标 ， 即 得 出 正确 答案 
的 平均 比例 。 

我 们 可 以 用 Welford 算 法 来 计算 性 能 指标 的 均值 ， 这 种 算法 的 好 处 在 于 总 能 得 到 当前 均值 的 
估 值 。 我 们 这 里 用 的 是 Welford 算 法 的 变 体 ， 因 此 只 有 在 处 理 不 足 200 个 样本 之 前 ， 才 会 用 直接 平 
均值 。 而 在 那 之 后 用 的 是 指数 平均 值 , 这 样 最 终 得 到 的 进度 性 能 指标 就 可 以 忽略 掉 分 类 器 早期 还 
没 学 会 任何 东西 时 给 出 的 结果 。 

下 面 这 段 代 码 就 是 计算 对 数 似 然 值 和 正确 平均 百分比 的 : 


double mu = Math.min(k + 1, 200); 
double 11 = learningAlgorithm.logLikelihood(actual, v); 
averageLL = averageLL + (ll - averageLL) / mu; 


Vector p = new DenseVector (20); 
learningAlgorithm.classifyFull(p, v); 
int estimated = p.maxValueIndex(); 


int correct = (estimated == actual? 1 : 0); 
averageCorrect = averageCorrect + (correct - averageCorrect) / mu; 


在 这 段 代 码 中 ， 模 型 需要 得 出 一 些 性 能 指标 。 它 计算 对 数 似 然 值 的 均值 并 放 在 变量 
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averageLL 中 。 然 后 ， 它 用 比例 最 高 的 新 闻 组 确定 变量 estimated， 并 与 正确 的 值 进行 比较 。 
然后 ， 对 比较 结果 取 均 值 ， 得 出 正确 结果 的 平均 百分比 ， 作 为 变量 averageCorrect 的 值 。 

8. 用 编码 数据 训练 SGD 模 型 

从 当前 训练 样本 中 得 到 进度 信息 后 , 我 们 可 以 把 它 传 给 学 习 算 法 以 更 新 模型 。 如 果 学 习 算 法 
多 次 扫描 数据 , 那么 最 好 将 测试 样本 用 于 进度 监控 , 将 训练 样本 只 用 于 训练 ， 而 不 是 像 这 里 一 样 
将 两 种 样本 都 用 于 训练 和 进度 监控 。 

在 示例 代码 中 ， 我 们 施展 一 些 “ 花 式 步 法 "， 以 逐步 增长 的 时 间 间 隔 来 提供 进度 反馈 。 这 样 
在 运行 过 程 中 就 可 以 尽早 提供 反馈 ， 又 不 至 于 因为 程序 运行 时 间 太 长 让 你 淹没 在 数据 洪流 之 中 。 
下 面 的 代码 给 出 了 这 些 逐 步 增长 的 步 长 的 计算 过 程 : 


learningAlgorithm.train(actual, v); 


k++; 

int bump = bumps[(int) Math.floor(step) % bumps.length]; 

int scale = (int) Math.pow(10, Math.floor(step / bumps.length) ); 
if (k % (bump * scale) == 0) { 


step += 0.25; 

System. out.printf("%10d %10.3f %10.3f %10.2f %s %s\n", 
k, 11, averageLL, averageCorrect * 100, ng, 
newsGroups.values().get (estimated) ) ; 

} 
learningAlgorithm.close(); 


样本 数量 每 次 达到 bump * scale， 都 会 新 输出 一 行 学 习 算 法 当前 的 状态 。 随 着 学 习 不 断 进 
行 ， 状 态 报告 的 频率 会 逐步 递减 。 也 就 是 说 ,准确 性 的 变化 越 快 ， 状 态 的 更 新 越 频 繁 。 
最 后 一 句 是 告诉 学 习 算法 可 以 收工 了 。 这 对 所 有 被 延迟 的 学 习 生效 , 并 将 一 切 临 时 结构 清除 


干净 。 
14.5 选择 训练 分 类 器 的 算法 
> Mahout 的 主要 优势 在 于 它 处 理 超大 并 一 直 增长 的 数据 集 时 所 体现 出 来 的 健壮 性 。Mahout 中 


No 14 的 所 有 算法 都 具备 扩展 能 力 ， 但 它们 在 其 他 方面 各 有 特色 ， 能 在 不 同 的 情景 下 发 挥 各 自 的 特长 。 
表 14-3 对 Mahout 内 部 用 于 分 类 的 不 同 算法 进行 了 比较 。 这 张 表 及 本 节余 下 的 内 容 ,， 有 助 于 你 确定 
哪个 Mahout 算 法 最 适合 特定 的 分 类 问题 。 但 你 要 记 住 ， 这 里 罗列 出 来 的 并 不 是 Mahout 的 全 部 算 
法 ， 因 为 总 有 新 算法 被 不 断 开 发 出 来 。 


表 14-3 Mahout 中 用 于 分 类 的 学 习 算 法 


数据 集 大 小 Mahout 算 法 执行 模型 特 性 
小 到 中 型 ( 训练 样 ”随机 梯度 下 降 (SGD ) 一 族 : BÍT, ER, 使 用 全 部 类 型 的 预测 变量 ， 在 数据 规模 合 
本 数 在 千 万 以 内 ) onlineLogisticRegression, 增 量 式 适 ( 上 至 几 百 万 训练 样本 ) 的 情况 下 十 分 
CrossFoldLearner, 适合 、 高 效 
AdaptiveLogisticRegression 
支持 向 量 机 (SVM) 串 行 仍 处 于 实验 阶段 ， 在 数据 规模 合适 的 情况 


下 十 分 适合 、 高 效 
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( & ) 
数据 集 大 小 Mahout 算 法 执行 模型 特 性 

中 到 大 型 ( 训练 样 ERN 并 行 特别 偏爱 文本 型 数据 ; 需要 中 等 到 很 大 的 

本 数 在 百 万 到 上 训练 开销 ; 处 理 那些 对 于 SGD 或 SVM 来 说 

亿 之 间 ) 过 大 的 数据 集 实 用 有 效 

补充 朴素 贝 叶 斯 并 行 比 朴素 贝 叶 斯 的 训练 成 本 高 一 些 ; 处 理 对 

于 SGD 来 说 过 大 的 数据 集 实用 有 效 ， 但 有 
和 朴素 贝 叶 斯 类 似 的 局 限 性 

小 到 中 型 ( 训练 样 ”随机 森林 并 行 使 用 全 部 类 型 的 预测 变量 ; 训练 开销 高 ; 

本 数 在 千 万 以 内 ) 尚未 得 到 普及 ; 成 本 高 ， 但 能 实现 复杂 而 
有 趣 的 分 类 ， 比 其 他 技术 更 擅 于 处 理 数据 
中 非 线 性 和 条 件 关 系 


这 些 算 法 的 差异 体现 在 训练 的 开销 或 成 本 , 性 能 表现 最 好 时 对 应 的 数据 集 规 模 , 以 及 能 够 实 
现 的 分 析 的 复杂 度 等 方面 。 


14.5.1 ” 非 并 行 但 仍 很 强大 的 算法 : SGD 和 SVM 


正如 在 图 13-1 和 图 13-7 中 看 到 的 那样 , 即便 算法 不 是 并 行 的 , 其 行为 也 会 有 很 强 的 扩展 能 力 。 
这 一 节 概 述 两 个 串 行 执行 的 Mahout 学 习 算法 : 随机 梯度 下 降 (SGD) 和 支持 向 量 机 (SVM). 

1. SGD 算 法 

SGD 算 法 应 用 广泛 , 是 那 种 靠 每 个 训练 样本 对 模型 进行 微调 , 然后 逐步 接近 该 样本 正确 答案 的 
学 习 算 法 。 这 一 递增 模式 在 多 个 训练 样本 上 重复 执行 。 我 们 可 以 借助 一 些 特 殊 技 巧 来 决定 对 模型 的 
微调 程度 , 使 模型 仅 在 一 定数 量 的 样本 上 训练 之 后 能 准确 对 新 数据 进行 分 类 。 尽管 很 难 让 SGD 算 法 
实现 高 效 的 并 行 化 处 理 ,但 因为 它们 处 理 大 多 数 应 用 时 一 般 都 很 快 ， 所 以 也 没 必要 并 行 执行 。 

因为 这 些 算法 对 每 个 训练 样本 执行 相同 的 简单 操作 , 所 以 它们 所 需 的 内 存 大 小 是 恒定 的 , 这 
一 点 很 重要 。 出 于 这 个 原因 , 每 个 训练 样本 所 需 的 工作 量 基 本 一 致 。 这 些 特 性 使 基于 SGD 的 算法 
的 性 能 是 线性 的 ， 即 处 理 两 倍 的 数据 仅 需 两 倍 的 时 间 。 

2. SVM 算 法 

Mahout 最 近 新 加 入 了 一 个 SVM 算法 的 实验 性 串 行 实现 。 该 实现 包括 用 Java 实 现 的 
LIBLINEAR 类 库 ， 具 备 工业 级 强度 但 不 可 扩展 ， 该 类 库 之 前 只 有 C++ 版 。 该 SVM 实现 仍然 是 个 
新 东西 ， 在 部 署 前 应 该 认真 测试 。 

SVM 算法 的 表现 跟 SGD 很 像 , 都 是 串 行 实现 , 但 对 于 大 量 数据 的 训练 速度 可 能 比 SGD 还 要 慢 
一 些 。Mahout 的 SVM 实现 很 可 能 分 享 了 SGD 的 输入 灵活 性 和 线性 扩展 能 力 ， 所 以 对 于 中 等 数据 
规模 的 项 目 来 说 可 能 优 于 朴素 贝 叶 斯 。 


14.5.2 ”朴素 分 类 器 的 力量 : 朴素 贝 叶 斯 及 补充 朴素 贝 叶 斯 
如 表 14-3 所 示 , Mahout 中 的 朴素 贝 叶 斯 和 补充 朴素 贝 叶 斯 算法 都 是 并 行 算 法 , 在 实际 应 用 中 ， 
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比 基 于 SGD 的 算法 更 适合 处 理 大 型 数据 集 。 因 为 它们 可 以 同时 在 多 台 机 器 上 高 效 工作 , 所 以 这 些 
算法 能 处 理 非常 大 的 数据 集 ， 而 基于 SGD 的 算法 在 这 方面 则 略 逊 一 筹 。 

然而 , Mahout 实 现 的 朴素 贝 叶 斯 , 仅 限于 基于 单一 文本 型 变量 进行 分 类 。 对 于 很 多 问题 来 说 ， 
包括 典型 的 大 规模 数据 问题 ,这 都 不 是 问题 。 但 如果 需 要 连续 变量 , 并 且 不 能 将 其 量化 为 单词 型 
对 象 从 而 和 其 他 文本 数据 一 块 处理 ， 可 能 就 没 办 法 使 用 朴素 贝 叶 斯 一 系 的 算法 。 

此 外 , 如果 数据 中 有 不 止 一 类 的 单词 型 或 文本 型 变量 ， 可 能 需要 把 这 些 变量 拼接 到 一 起 ,并 
以 一 种 明确 的 方式 添加 前 缀 以 消除 歧义 。 这样 做 可 能 会 损失 重要 的 差异 信息 ,因为 所 有 单词 和 类 
别 的 统计 数据 都 混 到 一 起 了 。 但 大 多 数 文 本 分 类 问题 , 应 该 都 可 以 用 朴素 贝 叶 斯 或 补充 朴素 贝 叶 
斯 算法 解决 。 


提示 “如果 你 要 处 理 上 千 万 的 训练 样本 ， 并 且 预 测 变 量 只 有 单个 文本 型 值 ， 那 么 朴素 贝 叶 斯 或 
补充 朴素 贝 叶 斯 可 能 是 最 理想 的 算法 。 而 对 于 其 他 类 型 的 变量 ， 或 者 训练 数据 没 这 么 多 
的 话 ， 可 以 试 试 SGD。 


如 果 Mahout# 素 贝 叶 斯 的 限制 条 件 与 你 的 问题 吻合 , 那 它们 就 是 首选 的 算法 。 它 们 擅长 处 理 
超过 100 000 训 练 样本 的 数据 ， 并 且 在 处 理 超 过 千 万 的 训练 样本 时 ， 很 可 能 会 优 于 串 行 执行 的 
算法 。 


14.5.3 ”精密 结构 的 力量 : 随机 森林 算法 


Mahout 中 有 Leo Breiman 的 随机 森林 算法 的 串 行 和 并 行 两 种 实现 。 这 一 算法 首先 训练 大 量 的 
简单 分 类 器 , 然后 通过 投票 机 制 得 出 最 终 的 唯一 结果 。Mahout 的 并 行 实现 是 在 模型 中 并 行 训练 很 
多 分 类 器 。 

上 述 并 行 方 式 具有 不 太 寻 常 的 扩展 性 质 。 因为 每 个 小 分 类 器 都 是 在 所 有 训练 样本 上 针对 部 分 
特征 训练 , 于 是 集群 中 每 个 节点 对 内 存 的 要 求 大 致 与 训练 样本 数目 的 平方 根 成 正比 。 这 一 点 就 不 
像 朴素 贝 叶 斯 那样 好 , 后 者 对 内 存 的 需求 跟 看 到 的 独立 单词 数目 成 正比 , 因此 大 约 是 跟 训 练 样本 
数目 的 对 数 成 正比 。 

但 这 种 不 太 理 想 的 扩展 性 质 也 会 带 来 “回报 ”， 在 处 理 那 些 对 Logistic 回 归 、SVM 或 朴素 
贝 叶 斯 来 说 比较 困难 的 问题 时 ， 随 机 森林 模型 有 它 的 独到 之 处 。 一 般 而 言 ， 这 种 问题 都 需要 
模型 用 变量 的 相互 作用 和 离散 化 来 处 理 连 续 变 量 的 阅 值 效应 。 比 较 简 单 的 模型 经 过 足够 的 时 
间 和 变量 变换 工作 之 后 ， 也 能 处 理 这 些 效 应 ,但 随机 森林 通常 不 需要 做 这 些 工 作 就 能 解决 这 
些 问题 。 

现在 你 已 经 了 解 Mahout 为 训练 分 类 器 所 提供 的 学 习 算 法 了 ,下 面 该 用 实践 来 检验 你 所 学 的 知 
识 了 。 在 14.4 节 ,我 们 已 经 用 SGD 算 法 针对 20 Newsgroups 数 据 训练 过 一 个 分 类 器 ; 下 一 节 , 我 们 
要 用 另 一 种 算法 试 一 下 ， 你 也 可 以 比较 一 下 这 两 种 方法 的 结果 。 
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分 类 路 径 部 分 取决 于 所 用 的 Mahout 分 类 算法 。 正如 前 面 一 节 提 到 的 , 算法 是 并 行 还 是 串 行 执 
行 有 很 大 差别 。 并 行 的 SGD 算 法 和 串 行 的 朴素 贝 叶 斯 算法 有 不 同 的 输入 路 径 , 而 这 种 差异 又 要 求 
用 不 同 的 方式 处 理 数据 ， 特 别 是 向 量化 。 

本 节 会 向 你 展示 如 何 用 朴素 贝 叶 斯 模型 处 理 14.4 节 处 理 过 的 20 Newsgroups 数 据 。 对 相同 的 数 
据 用 不 同 的 算法 ， 你 就 能 看 出 串 行 方式 和 并 行 方 式 在 构建 分 类 模型 上 的 差异 。 

我 们 首先 要 为 训练 算法 准备 数据 ， 进 行 数 据 提取 ， 然 后 你 将 了 解 如 何 训练 模型 。 完 成 之 后 ， 
你 就 可 以 开始 评估 最 初 的 模型 ， 并 确定 它 是 表现 良好 ， 还 是 需要 进行 调整 。 


14.6.1 开始 : 为 朴素 贝 叶 斯 提取 数据 


我 们 先 把 数据 转换 成 可 分 类 形式 ， 并 转 成 朴素 贝 叶 斯 算法 用 的 文件 格式 。 所 用 的 数据 就 是 
14.4 节 给 SGD 示 例 所 用 的 20 Newsgroups 数 据 集 。 i 

朴素 贝 叶 斯 分 类 器 可 以 和 跟 SGD 分 类 器 一 样 以 编程 方式 驱动 , 但 它 也 有 可 以 通过 命令 行 调用 
的 内 置 解析 器 。 这 个 解析 器 可 以 接受 SVMLight 程 序 所 用 的 数据 文件 格式 的 一 种 变 体 ， 其 中 的 每 
条 数据 记录 在 文件 中 占 一 行 , 包括 目标 变量 的 值 ， 后 跟 用 空格 分 隔 的 特征 ， 出 现 特征 名 表示 该 特 
征 的 值 为 1， 没 有 则 表明 该 特征 的 值 为 0(。 要 用 命令 行 版 本 的 朴素 贝 叶 斯 分 类 器 ， 你 必须 将 20 
Newsgroups 数 据 集中 的 数据 转换 成 这 种 格式 。 

在 20 Newsgroups 数 据 集 中 ， 每 个 新 闻 组 (newsgroup ) 的 数据 占 一 个 目录 ， 目 录 中 的 每 个 文 
件 都 是 一 个 文档 。 我们 需要 扫描 所 有 的 目录 ， 并 把 文件 都 转 成 单行 文本 ,以 目录 名 开头 ,跟着 是 
文档 中 出 现 的 所 有 单词 。Mahout 中 的 prepare20newsgroups 程 序 完成 的 就 是 这 个 功能 。 要 转换 
训练 和 测试 数据 ， 请 用 下 面 的 命令 : 


$ bin/mahout prepare20newsgroups -p 20news-bydate-train/ \ 
-o 20news-train/ \ 
-a org.apache.lucene.analysis.standard.StandardAnalyzer \ 
-c UTF-8 


no HADOOP_CONF_DIR or HADOOP_HOME set, running locally 
INFO: Program took 3713 ms 


$ bin/mahout prepare20newsgroups -p 20news-bydate-test \ 
-o 20news-test \ 
-a org.apache. lucene.analysis.standard.StandardAnalyzer \ 
-c UTF-8 

no HADOOP_CONF_DIR or HADOOP_HOME set, running locally 

INFO: Program took 2436 ms 


命令 中 的 选项 -p 指 定 存放 训练 或 测试 数据 的 目录 名 ， 选 项 -o 指 定 输出 目录 ， 选 项 -a 指定 文 
本 解析 器 ， 选 项 -c 指 定 将 输入 字 节 转 成 文本 所 用 的 字符 编码 类 型 。 

这 个 命令 的 运行 结果 应 该 是 个 叫做 20news-train 的 目录 ， 每 个 新 闻 组 一 个 文件 。 在 像 
20news-train/misc.forsale.txt 这 样 的 数据 文件 中 ， 你 会 见 到 如 图 14-7 所 示 的 结果 。 
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目标 变量 要 分 类 的 文本 


‘misc. forsale from kedz@bigwpi.wpi.edu john kedziora subject ... 


misc. forsale from myoakam@cis.ohio-state.edu micah r yoakam subject ... 
misc. forsale from gt1706a@prism.gatech.edu maureen 1 eagle subject ... 
misc. forsale from mike diack mike-d@staff.tc.umn.edu subject make ... 
misc. forsale from jvinson@xsoft.xerox.com jeffrey vinson subject ... 
misc.forsale from hungjenc@usc.edu hung jen chen subject test ... 


图 14-7 ”将 训练 数据 转换 为 朴素 贝 叶 斯 程序 偏爱 的 格式 。 注 意 ， 这 里 显示 的 内 容 已 经 缩短 了 很 多 


14.6.2 ”训练 朴素 贝 叶 斯 分 类 器 


至 此 为 止 ， 我 们 一 直 在 处 理 20 Newsgroups 数 据 ， 提 取 特 征 为 朴素 贝 叶 斯 算法 准备 恰当 的 输 
入 数据 。 将 训练 和 测试 数据 转换 成 正确 的 格式 后 ， 可 以 训练 分 类 模型 了 。 
试 一 下 下 面 的 命令 ， 产 生 一 个 使 用 朴素 贝 叶 斯 算法 的 训练 模型 : 


bin/mahout trainclassifier -i 20news-train \ 
-o 20news-model \ 
-type cbhayes \ 
-ng 1 \ 
-source hdfs 


INFO: Program took 250104 ms 

运行 结果 是 存在 20news-model 目 录 中 的 模型 ， 这 个 目录 是 由 选项 -o 指 定 的 。 选 项 -ng 表明 考 
虑 独立 的 单词 而 不 是 单词 的 短 序列 。 模 型 中 有 几 个 文件 ,分 别 包含 模型 的 一 部 分 。 这 些 都 是 二 进 
制 文 件 ， 想 直接 检查 不 太 容易 ， 但 你 能 借助 Lestclassifier 程 序 用 它们 对 测试 数据 进行 分 类 。 

你 现在 已 经 利用 20 Newsgroups 数 据 和 朴素 贝 叶 斯 算法 构建 一 个 模型 ， 并 进行 了 初步 的 训练 。 
这 个 模型 好 用 吗 ? 你 可 以 评估 模型 的 性 能 ， 以 回答 这 个 问题 。 


14.6.3 ”测试 朴素 贝 叶 斯 模型 


现在 是 新 训练 模型 的 评估 时 间 。 我 们 会 介绍 评估 流程 , 并 对 新 训练 的 模型 进行 一 些 初步 的 测 
试 。 在 第 15 章 ,我们 会 深入 探讨 这 一 主题 。 
要 在 测试 数据 上 运行 朴素 贝 叶 斯 模型 ， 可 以 使 用 下 面 的 命令 : 


bin/mahout testclassifier -d 20news-test \ 
-m 20news-model \ 
-type cbayes \ 
sng 1 \ 
-source hdfs \ 
-method sequential 


其 中 的 选项 -m 指 明了 上 一 步 构建 的 模型 所 在 的 目录 。 选 项 -methoq 指 明 程 序 应 该 以 串 行 模式 
运行 ， 而 不 是 使 用 Hadoop。 像 这 样 的 小 数据 集 ， 串 行 处 理 更 好 。 而 对 于 比较 大 的 数据 集 ， 则 必须 
采用 并 行 操 作 ， 以 保证 运行 时 间 控 制 在 合理 范围 内 。 
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测试 程序 运行 完 后 ,会 输出 下 面 这 种 信息 。 汇 总 信息 中 有 正确 或 不 正确 分 类 文档 的 原始 数量 。 


Summary 

Correctly Classified Instances : 6398 84.9442% 
Incorrectly Classified Instances : 1134 15.0558% 
Total Classified Instances : 7532 


我 们 只 摘录 了 输出 信息 中 的 汇总 部 分 ， 其 他 部 分 都 省 略 了 。 从 汇总 信息 中 可 以 看 出 ,朴素 贝 
叶 斯 模型 表现 很 好 ， 正 确 率 几 乎 达到 了 85%。 除 了 总 体 数值 ( gross number )， 汇 总 信息 中 再 没有 
任何 与 错误 有 关 的 详细 信息 。 输 出 的 下 一 部 分 是 混淆 矩阵 (confusion matrix )， 其 中 有 错误 的 详 
细 信 息 。 这 部 分 输出 如 下 : 


Confusion Matrix 


abcdefghigjkilimnopdqrst <--Classified as 


388 | 397 a = rec.sport.baseball 
386 396 b = sci.crypt 
396 399 c = rec.sport.hockey 
347 364 d = talk.politics.guns 
277 398 e = soc.religion.christian 
12 304 18 393 f = sci.electronics 
281 14 43 21 394 g = comp.os.ms-windows.misc 
313 22 16 | 390 h = misc.forsale 
26 69 83 41 | 251 i = talk.religion.misc 
45 225 13 11 | 319 j = alt.atheism 
334 32 395 k = comp.windows.x 
367 376 1 = talk.politics.mideast 
19 .23 15 307' 13 392 m =comp.sys.ibm.pc.hardware 
16 335 385 n = comp.sys.mac.hardware 
371: | 394 o = sci.space 
393 | 398 p = rec.motorcycles 
12 364 396 q = rec.autos 
11 22 305 389 r = comp.graphics 
102 160 310 s = talk.politics.misc 
362 396 t = sci.med 


Default Category: unknown: 20 

实际 输出 和 本 书 中 的 会 稍 有 不 同 , 因为 此 处 为 了 适应 纸 面 的 宽度 , 我 们 把 实际 输出 的 长 度 压 
缩 了 。 混淆 矩阵 中 给 出 了 所 有 正确 和 不 正确 分 类 的 分 解 信 息 , 因此 可 以 看 到 模型 在 测试 数据 上 犯 
了 哪些 错误 。 沿 着 对 角 线 , 我 们 可 以 看 到 大 多 数 新 闻 组 的 分 类 做 得 都 挺 好 ， 只 有 talk.religion.misc 
和 talk.politics.misc 两 个 新 闻 组 的 正确 分 类 数量 相对 较 少 ， 显 得 比较 突出 。talk.politics.misc 新 闻 组 
中 几乎 有 1/3 文 档 的 分 类 不 正确 , 被 归 到 了 talk.politics.guns 中 ， 即 便 不 能 说 正确 , 但 最 起 码 表面 上 
看 起 来 是 讲 得 通 的 。 同 样 ，talk.religion.misc 中 有 69 个 文档 被 分 到 了 soc.religion.christian 中 ， 这 也 
能 说 得 通 。 看 到 这 些 错 误 具 有 某 种 意义 , 我们 应 该 更 加 安心 了 ， 因 为 它们 表明 模型 是 根据 文档 内 
容 的 实际 含义 来 选择 类 别 的 。 

有 点 讽刺 的 是 ， 如 果 看 到 模型 的 性 能 不 是 出 奇 得 好 ， 心 里 倒 会 更 加 安心 。 比 如 说 ， 如 果 在 相 
同 的 训练 数据 上 再 次 运行 上 面 学 到 的 模型 ， 汇 总 信息 将 如 下 所 示 : 
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bin/mahout testclassifier -d 20news-train -m 20news-model\ 
-type cbayes -ng 1 -source hdfs -method sequential 


Correctly Classified Instances : 11075 97.8876% 


Incorrectly Classified Instances A 239 2.1124% 
Total Classified Instances : 11314 


对 于 这 些 训练 中 熟悉 的 数据 ， 模 型 的 正确 率 能 够 达到 98%， 对 于 这 个 具体 问题 来 说 ， 好 得 太 
过 离谱 。 最 好 的 机 器 学 习 研 究 人 员 在 提 到 他 们 系统 的 正确 率 时 , 也 只 是 说 大 概 在 84% 到 86% 之 间 。 
我 们 在 后 续 各 章 中 还 会 针对 模型 评估 问题 展开 更 多 的 讨论 , 特别 是 探讨 如 何 形成 一 种 思路 来 判断 
模型 真正 应 有 的 表现 。 


14.7 小结 


这 一 章 介绍 了 如 何 对 20 Newsgroups 数 据 集中 的 真实 数据 构建 和 训练 分 类 器 ， 并 重点 介绍 了 
特征 提取 ， 以 及 如 何 为 项 目 选择 最 佳 算法 。 

无 论 从 时 间 、 精 力 , 还 是 做 好 之 后 所 能 带 来 的 回报 来 看 ,特征 提取 都 是 构建 分 类 系统 的 重 中 
之 重 。 记 住 ， 对 于 不 同 的 分 类 器 而 言 ， 每 个 特征 的 价值 并 非 总 是 一 样 的 ， 你 需要 尝试 多 种 组 合 来 
看 它们 的 实际 效果 。 原 始 数据 是 不 能 直接 使 用 的 。 至 于 如 何 将 原始 数据 变 成 可 分 类 的 形式 ， 然 后 
如 何 再 将 其 变 成 Mahout 学 习 算 法 所 要 求 的 向 量 ， 书 中 已 经 给 出 了 详细 介绍 。 

对 于 不 同 的 学 习 算法 而 言 ， 其 作为 输入 变量 的 可 接受 值 类 型 不 同 。14.5 节 专门 概述 了 区 分 不 
同 算法 的 各 种 差别 ,此 外 还 介绍 了 一 些 其 他 的 差异 。 现 在 ， 你 对 使 用 不 同 算法 的 优点 和 代价 应 该 
有 个 基本 的 认识 ， 可 以 根据 自己 的 理解 选择 适合 自己 项 目的 算法 了 。 

最 后 ， 我 们 介绍 了 两 种 学 习 算法 (SGD 和 朴素 贝 叶 斯 ) 在 相同 数据 集 ( 即 20 Newsgroups 数 
据 ) 上 的 表现 。 

相信 你 对 分 类 第 一 阶段 ( 训练 模型 ) 已 经 有 了 深入 的 了 解 , 我们 接 下 来 关注 第 二 阶段 ， 即 对 
训练 得 到 的 模型 进行 评估 和 调 优 。 这 正 是 下 一 章 的 主题 。 


分 类 器 评估 及 调 优 


本 章 内 容 

口 分 类 器 评估 中 的 基本 问题 

口 使 用 Mahout 中 的 评估 API 

口 度量 某 个 SGD 分 类 器 的 性 能 

口 分 类 器 中 的 常见 问题 及 处 理 方法 
口 分 类 器 调 优 方法 


由 于 在 分 类 中 处 于 重要 地 位 , 评估 在 Mahout 被 构建 为 一 个 基础 构件 。 本 章 主要 考虑 分 类 过 程 
的 第 二 步 即 分 类 器 的 评估 及 调 优 过 程 , 该 过 程 为 分 类 器 的 生产 部 署 及 性 能 维护 做 准备 。 我 们 会 介 
绍 如 何在 一 个 高 层次 上 对 分 类 器 进行 评估 ,并 介绍 利用 Mahout API 进 行 评估 的 细节 。 本 章 会 给 出 
一 个 如 何 使 用 Mahout API 的 例子 。 我 们 还 会 给 出 多 个 例子 来 强调 如 何 利用 Mahout 评 估 API 的 性 能 
指标 和 诊断 功能 来 诊断 分 类 器 中 的 常见 问题 。 本 章 最 后 会 给 出 分 类 器 调 优 策略 和 技术 的 一 个 讨 
论 ， 涉 及 的 范围 从 选择 算法 一 直到 调整 学 习 率 。 

分 类 器 评估 也 给 出 了 一 些 陷 阱 ,本 章 会 给 出 一 些 方法 来 避免 其 中 代价 最 大 的 陷阱 。 另 一 方面 ， 
由 于 分 类 器 模型 内 部 机 理 可 能 难以 理解 ， 所 以 分 类 器 评估 本 身 也 存在 挑战 。 


15.1 Mahout 中 的 分 类 器 评估 


要 构建 一 个 成 功 的 分 类 器 , 评估 是 相当 重要 的 一 环 。 它 涉及 的 远 远 不 止 是 模型 训练 之 后 得 到 
的 表示 成 功 程度 的 某 个 单一 得 分 。 实际 上 , 它 是 从 训练 时 就 开始 的 一 个 反复 迭代 过 程 。 构 建 分 类 
器 时 早期 的 评估 很 有 价值 , 这 是 因为 它 可 以 鼓励 我 们 做 出 多 种 可 能 的 尝试 ,包括 选择 不 同 的 算法 、 
配置 和 预测 变量 集合 。 除 此 之 外 , 评估 还 可 以 对 数据 预 处 理 流程 中 的 错误 进行 校 验 ,， 这些 错误 有 
可 能 会 使 分 类 器 表现 得 比 实际 效果 要 好 。 

为 评估 分 类 器 ，Mahout 提 供 了 一 系列 的 性 能 指标 。 这 些 指标 主要 包括 正确 百分比 或 称 正 
确 率 (percent correct ), #&7 42% ( confusion matrix )、AUC 和 对 数 似 然 (loglikelihood ) 等 。 
朴素 贝 叶 斯 和 补充 朴素 贝 叶 斯 ( complementary naive Bayes ) 最 好 用 正确 率 和 混 清 矩阵 来 评估 。 
对 于 SGD 算 法 上 述 四 种 评估 指标 都 可 以 ， 但 是 AUC 和 对 数 似 然 可 能 尤其 有 效 ， 这 是 因为 它们 
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能 够 深入 到 模型 的 置信 和 度 水 平 。 

本 节 主 要 介绍 三 个 方面 的 内 容 : 首先 是 如 何 获得 对 模型 性 能 的 反馈 , 甚至 在 训练 阶段 就 获得 
反馈 ; 其 次 是 如 何 解释 Mahout 提 供 的 多 个 性 能 指标 ; 最 后 是 如 何 将 损失 代价 集成 到 分 类 器 评估 
当中 。 


15.1.1 获取 即时 反馈 


Mahout 中 的 评估 与 其 他 系统 稍 有 不 同 。 其 中 一 个 不 同 是 Mahout 能 够 在 进行 中 提供 即时 的 性 
能 评估 , 它 允 许 用 户 一 次 将 目标 变量 分 值 和 参照 值 输入 给 评 佑 器 来 获得 现场 的 性 能 反馈 。 这 一 点 
相当 有 用 。 与 此 形成 对 照 的 是 , 有 些 其 他 系统 当中 必须 要 批 处 理 得 到 所 有 的 得 分 和 目标 变量 值 之 
后 才能 进行 评估 。 当 需要 记录 学 习 系统 的 过 程 时 ，Mahout 的 这 种 在 线 评 估 能 力 就 能 提供 方便 。 不 
仅 如 此 , 由 于 Mahout 能 够 在 系统 运行 时 像 在 学 习 过 程 中 一 样 对 学 习 参 数 进行 调整 , 因此 上 述 做 法 
也 会 带 来 实际 价值 。 

上 述 获得 进行 中 的 指标 的 能 力 非常 好 ， 但 是 这 些 指 标的 含义 到 底 如 何 ? 


15.1.2 ”确定 分 类 “好 ”的 含义 


直觉 上 , 大 部 分 用 户 都 希望 分 类 器 越 精确 越 好 , 并 且 最 好 每 次 都 将 分 类 对 象 放 入 正确 的 类 别 
当中 。 不 幸 的 是 ,这 种 直觉 并 不 能 带 来 一 个 实际 的 评估 机 制 。 在 现实 当中 , 没有 分 类 器 会 做 到 百 
分 之 百 正确 。 实 际 上 , 一 个 很 高 的 精确 率 往往 表明 测试 中 出 现 了 错误 ， 即 看 起 来 太 好 了 不 像 是 真 
的 ， 那么 很 可 能 就 不 是 真 的 ! 于 是 ,到 底 如 何 度量 分 类 器 的 “好 ”?” 一 个 有 效 的 评估 方法 要 取得 
成 功 ， 就 必须 要 有 实际 真实 的 基准 ， 这 样 才能 认识 到 分 类 器 的 高 效 性 。 

诸如 正确 率 之 类 的 简单 精度 指标 并 不 是 对 分 类 器 进行 评估 和 调 优 的 最 好 指标 。 比 如 , 考虑 表 
15-1 中 两 个 假想 的 模型 的 对 比 。 从 中 可 以 看 到 ， 如 果 采 用 一 个 简单 的 指标 ， 一 个 几乎 全 错 的 分 类 
器 实际 上 会 比 某 个 偶尔 还 会 对 的 分 类 器 更 有 用 。 


表 15-1 两 个 假想 的 分 类 器 数据 ， 该 数据 表明 仅仅 考察 正确 率 会 有 一 些 缺 陷 。 表 中 每 列 给 出 的 
是 模型 每 种 可 能 输出 结果 的 频率 得 分 值 ， 每 行 给 出 了 具体 的 正确 值 ， 最 高 得 分 都 用 加 
粗 字 体 显示 。 其 中 ， 模 型 1 几乎 从 不 正确 ， 但 是 仍然 可 能 有 用 ， 而 模型 2 却 像 一 个 “ 停 
摆 的 钟 ” 

A B C 

0.50 

0.45 

0.50 


上 面 这 个 假想 的 例子 表明 ,仅仅 简单 地 看 正确 率 往 往 不 能 展示 模型 的 真正 价值 。 上 述 表格 中 ， 
每 行 对 应 一 个 样本 ， 最 左边 是 正确 的 答案 。 而 每 列 代表 的 是 三 种 可 能 输出 结果 中 每 一 种 的 得 分 。 
模型 1 从 来 都 不 对 ， 但 是 它 比 模型 2 要 有 价值 得 多 ， 尽 管 后 者 看 上 去 精度 明显 要 高 一 些 。 模 型 2? 采 


15.2 分 类 器 评估 API 247 


用 某 个 过 分 简单 的 固定 规则 来 评分 ， 有 时 会 取得 正确 的 结果 , 但 这 完全 是 纯 随 机 的 。 而 相 比 较 而 
言 ， 模 型 1 却 看 上 去 始终 能 够 从 三 种 可 能 中 选择 错误 的 那个 。 

在 很 多 应 用 中 , 由 于 模型 2 虽然 有 时 会 得 到 正确 结果 但 却 永 远 不 会 改变 输出 结果 , 所 以 模型 1 
的 结果 可 能 在 很 多 需求 下 会 比 模型 2 更 好 。 对 于 上 例 而 言 ， 模 型 1 的 正确 率 是 0， 而 模型 2 却 为 1/3。 
相 比 之 下 ， 模 型 1 的 平均 对 数 似 然 是 -0.8， 而 模型 2 为 -3.5， 后 者 更 差 一 些 。 下 一 节 当中 ， 我 们 会 
讨论 像 对 数 似 然 这 样 的 一 些 指标 ， 它 们 能 够 更 好 地 反映 出 我 们 想 看 到 的 性 能 好 坏 。 

进一步 地 ， 对 于 模型 来 说 ， 了 解 它 何 时 可 能 正确 和 何 时 可 能 不 对 十 分 有 用 。 有 一 些 性 能 指标 
能 够 反映 这 种 “ 自 知 之 明 "”。 上 例 中 的 模型 1 提供 了 这 个 信息 ， 它 对 于 两 种 选择 表现 得 模棱两可 ， 
其 中 一 种 选择 实际 是 正确 的 。 而 模型 2 看 上 去 对 于 选择 正确 与 否 没有 提供 任何 线索 。 当 然 ， 如 果 
利用 对 数 似 然 也 能 正确 地 显示 出 这 种 显著 的 差别 。 

然而 ,有 时 采用 一 个 统一 的 性 能 指标 并 不 是 一 件 好 事 。 当 某 些 错误 的 代价 远 远 高 于 其 他 错误 
时 这 一 问题 常常 就 会 发 生 。 


15.1.3 ”认识 不 同 的 错误 代价 


当 某 些 错误 的 代价 高 于 其 他 错误 的 时 候 , 简单 的 精度 指标 的 可 用 性 会 大 打折 扣 。 伪 正 例 (false 
positive ) 可 能 就 比 伪 反 例 ( false negative ) 付出 的 代价 要 低 很 多 。 比 如 ， 本 来 没有 癌症 ,但 是 误 
测 出 癌症 了 , 可 能 需要 付出 重新 检查 和 胆战心惊 的 代价 , 但 是 如 果 本 来 有 癌症 , 但 是 没 检 测 出 来 ， 
则 会 付出 生命 的 代价 。 

和 上 面 的 例子 相 比 , 一 个 不 那么 令 人 瞩目 的 反映 漏 报 和 误 报 的 不 同 代价 的 例子 是 垃圾 邮件 过 
滤 。 如 果 垃 圾 邮件 被 判 为 正常 邮件 , 用户 可 能 只 是 抱怨 , 但 如 果 正 常 邮件 被 判 为 垃圾 邮件 ,用户 
可 能 会 大 为 光 火 。 每 次 将 垃圾 邮件 误 判 为 正常 邮件 只 是 浪费 了 用 户 的 数秒 时 间 , 而 将 正常 邮件 标 
记 为 垃圾 邮件 带 来 的 远 远 不 止 是 不 方便 而 已 。 如 果 这 种 情况 相当 频繁 , 那么 用 户 有 可 能 发 现 问题 
并 采取 相应 行动 。 但 是 , 如 果 上 述 错误 十 分 罕见 ,用户 就 可 能 意识 不 到 需要 对 这 种 可 能 出 现 的 问 
题 进行 弥补 ， 这 样 的 话 后 果 会 不 断 升级 。 

Mahout 分 类 器 评估 API 的 输出 结果 可 以 参考 第 13 章 和 第 14 章 给 出 的 例子 。 这 两 章 中 给 出 的 命 
令 行 工具 可 以 给 出 评估 的 输出 结果 。 某 些 情况 下 ， 常 规 的 诊断 方法 已 经 足够 , 但 是 通常 而 言 用 户 
需要 在 自己 的 程序 中 使 用 API 来 了 解 运行 的 效果 。 下 一 节 将 详细 介绍 如 何 利用 Mahout 中 的 评估 
API 来 进行 评估 。 


15.2 分 类 器 评估 API 


Mahout 的 分 类 器 评估 API 包 含 了 一 系列 的 类 ， 用 于 计算 各 种 分 类 器 性 能 指标 。 不 论 用 户 是 否 
使 用 Mahout 中 的 分 类 器 ， 这 些 评估 类 或 许 都 十 分 有 用 。 

Mahout API 类 所 支持 的 多 种 分 类 器 指标 如 表 15-2 所 示 。 每 个 指标 都 会 在 后 续 小 节 中 详细 介 
绍 。 其 中 包括 如 何在 线 和 离线 进行 指标 的 计算 。 在 线 学 习 算 法 也 提供 了 API， 用 于 在 训练 阶段 访 
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问 上 述 的 几 个 性 能 指标 。 正 如 在 表 15-2 中 可 能 看 到 的 那样 ， 所 有 的 指标 的 支持 方式 并 不 一 致 。 表 
15-3 中 按照 类 分 别 列 出 了 相关 功能 。 


表 15-2 Mahout 通 过 多 个 API 所 支持 的 分 类 器 性 能 指标 


指 标 支持 的 类 
正确 率 CrossFoldLearner 
混淆 矩阵 ConfusionMatrix, Auc 
ela Auc 
AUC Auc, OnlineAuc, CrossFoldLearner, AdaptiveLogisticRegression 
对 数 似 然 CrossFoldLearner 


表 15-3 ”支持 分 类 器 性 能 评估 的 类 


类 A 法 
Auc auc()、 confusion()、 entropy () 
OnlineAuc® auc () 
OnlineSummarizer 
ConfusionMatrix 
AbstractVectorClassifier loglikelihood(int, vector) 
CrossFoldLearner auc(), percentCorrect(). loglikelihood() 
AdaptiveLogisticRegression auc () 


需要 注意 的 是 ， 上 述 各 类 的 使 用 方式 有 所 不 同 。 上 面 的 学 习 算 法 , 包括 adaptiveLogistic 
Regression、CrossFoldLearner 以 及 AbstractVectorCclassifier 都 提供 了 对 所 学 模型 进 
行 评估 的 方法 。 而 与 此 形成 对 照 的 是 ，Auc 和 on1lineaAuc 是 相互 独立 的 类 ， 它 们 在 给 定 得 分 和 目 
标 参 照 值 之 后 计算 性 能 指标 。 而 最 后 ，onlinesummarizer 对 任意 指标 计算 总 的 统计 信息 。 

下 面 我 们 将 介绍 计算 这 些 指标 的 过 程 细 节 。 


15.2.1 计算 AUC 


当 所 要 评估 的 模型 的 目标 变量 为 二 值 且 该 模型 的 输出 得 分 为 连续 值 时 ,采用 AUC 指 标 十 分 有 
用 。 例 如 ， 某 个 分 类 器 计算 一 个 物品 是 否 包含 某 个 属性 的 0 到 1 之 间 的 概率 ， 该 分 类 器 就 适合 用 
AUC 来 计算 。AUC 并 不 要 求 分 类 器 的 输出 得 分 一 定 是 概率 估计 值 ， 输 出 值 范 围 差异 很 大 的 分 类 
器 都 可 以 利用 AUC 来 比较 。 

读者 不 必 深 入 理解 AUC 的 意义 ， 只 需要 记得 AUC 是 指 一 个 随机 选择 的 yes 实 例 要 比 一 个 随机 
选择 的 no 实例 的 得 分 要 高 的 概率 。 一 个 输出 的 得 分 和 目标 变量 毫 不 相干 的 分 类 器 的 AUC 值 在 0.5 
左右 ， 而 一 个 完美 模型 的 AUC 得 分 为 1。AUC 得 分 在 0.7 到 0.9 之 间 的 模型 通常 被 认为 “好 ”。 对 于 
欺诈 检测 和 点 击 分 析 来 说 ,， 上述 区 间 也 是 模型 产生 有 用 的 精确 结果 的 区 间 范 围 。 当 模型 的 预测 结 
果 正 好 和 目标 变量 相反 时 ，AUC 的 得 分 为 0。 


(原文 该 表格 不 全 ， 故 根据 上 下 文 进行 了 修改 。 另 外 ，on1ineauc 实 际 上 是 一 个 接口 ， 不 是 类 。 一 一 译 者 注 
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Od) 不 论 出 于 实际 还 是 理论 上 的 考虑 , AUC 最 好 采用 如 下 计算 方式 , 即 从 所 有 数据 中 保留 一 部 分 
No. 15 作为 测试 数据 , 然后 在 这 些 已 知 目标 结果 的 测试 数据 上 比较 分 类 器 。 不幸 的 是 , AUC 通 常 仅 适合 
于 计算 输出 得 分 值 的 二 值 分 类 模型 而 不 是 硬 分 类 结果 。 当然, 现在 也 存在 AUC 的 一 些 扩展 能 够 支 
持 非 二 值 的 分 类 结果 ,但 是 目前 Mahout 并 不 支持 这 些 扩展 。 
Mahout 中 , 如 果 二 值 分 类 器 在 测试 数据 上 的 输出 得 分 值 和 标准 目标 变量 值 已 知 的 话 , 存在 多 
种 计算 AUC 的 方法 ， 其 中 包括 org.apache.mahout.classifier.evaluation 包 的 Auc 类 。 
此 外 ， 还 存在 onlineauc 的 接口 实现 以 及 org.apache.mahout.math.stats 包 中 的 
Globalonlineauc 或 Groupedonlineauc 类 。 对 于 上 述 提 到 的 所 有 类 ， 只 要 给 出 测试 数据 上 的 
真实 目标 变量 值 和 分 类 器 的 输出 得 分 值 就 可 以 计算 AUC。 而 对 于 这 些 类 , AUC 的 值 均 来 自 auc () 
方法 。 
onlineaAuc 与 Auc 有 所 不 同 , 在 数据 载 人 过 程 中 的 任意 时 刻 onlineauc 都 可 以 给 出 AUC 的 估 
计 值 ， 尽 管 每 个 元 素 插 入 的 开销 稍 大 , 但 这 种 估计 所 需要 的 开销 却 很 小 。 尽 管 auc 和 onlineaAuc 中 
的 算法 的 结果 基本 相同 ,但 是 由 于 涉及 对 数 千 的 样本 排序 ,auc .auc () 的 开销 比 onlineauc .auc() 


更 大 。 

下 面 的 代码 清单 给 出 了 上 述 两 个 类 当中 如 何 从 文件 中 读 人 分 类 器 得 分 和 目标 变量 值 然后 计 
算 AUC 的 过 程 。 
代码 清单 15-1 向 AUC 指 标 类 传递 数据 

Auc x1 = new Auc(); 

OnlineAuc x2 = new GlobalOnlineAuc(); 

BufferedReader in = new BufferedReader (new FileReader(inputFile) ); 

int lineCount = 0; 

String line = in.readLine(); 

while (line != null) { 

lineCount++; 


String[] pieces = line.split(","); 
double score = Double.parseDouble(pieces[0]); 
int target = Integer.parseInt(pieces[1]); 
xl.add(target, score); 
x2.addSample(target, score); 
if (lineCount%500 == 0) { 9 获得 输入 后 x2 计 算 AUC 
System.out.printf("%10d\t%10.3f\t%10d\t%.3f\n", 
lineCount, score, target, x2.auc()); 


} 


line = in.readLine(); 
) x1 和 x2 的 结果 
System.out.printf("%d lines read\n", lineCount) ; 实际 上 完全 一 样 
System.out.printf("%10.2f = batch estimate\n", xl.auc()) 
System.out.printf("%10.2£f = on-line estimate\n", x2.auc()); 


上 述 程序 当中 ，x1 和 x2 计 算出 的 AUC 值 几乎 完全 一 样 ， 但 是 对 于 x2 来 说 ， 在 扫描 数据 的 过 
程 中 ， 它 就 会 产生 AUC 在 过 程 中 的 估计 值 @。 最 后 ，x1 和 x2 得 到 的 结果 本 质 上 相同 ,但 是 它们 
的 实现 方式 有 所 不 同 @。 
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在 CrossFoldLearner 和 AdaptiveLogisticRegression 类 中 auc() 及 getLogLikelihood() 
方法 的 训练 过 程 中 , 可 以 计算 最 新 的 AUC 或 对 数 似 然 值 。 通 过 这 些 值 可 以 对 训练 的 多 个 模型 进行 
比较 。 这 个 过 程 通过 AdaptiveLogisticRegression 来 实现 ， 其 中 它 可 以 在 训练 中 对 训练 参数 
进行 调整 。 

尽管 AUC 通 常 是 二 值 目 标 变量 及 输出 分 值 时 的 黄金 标准 ,但 当 目标 变量 不 止 两 类 或 者 不 会 输 
出 得 分 值 时 ， 还 需要 寻找 其 他 好 的 评估 指标 。 


15.2.2 tA EA Ae eee 


对 于 输出 非 分 值 结果 的 分 类 器 来 说 , FY AER EL Be I as TE PA Eo EAE REA A h 
结果 和 已 知 正确 目标 值 的 交叉 表 。 甜 阵 的 每 一 行 对 应 真实 目标 值 而 每 一 列 对 应 模型 的 输出 值 。 甜 
阵 第 行 j 列 的 元 素 值 为 类 别 的 测试 样本 被 模型 分 到 类 别 j 中 的 数目 ,一 个 好 模型 对 应 的 混淆 矩阵 的 
大 元 素 都 集中 在 对 角 线 。 这 些 对 角 线 元 素 指 的 是 类 别 i 中 样本 被 正确 分 到 类 中 的 数目 。 

下 面 给 出 了 一 个 混淆 矩阵 的 例子 。 


a b c d e f <--Classified as 

9 0 1 0 0 0 | 20 a = one 

o öy © 2 © | 10 b = two 
0 0 10 © 0 0 | 10 c = three 
0 Oo 1 8 80 | 10 a = four 
1 1 0 0 7 1 | 26 e = five 
0 0 0 © 1 9 | 10 f = six 


Default Category: one: 6 


这 个 例子 中 的 数据 是 我 们 自己 造 的 ， 该 例子 给 出 了 一 个 典型 的 精确 分 类 器 ， 我 们 可 以 看 到 ， 
和 矩阵 中 的 大 元 素 都 集中 在 对 角 线 上 。 

代码 清单 15-2 给 出 了 利用 org .apache .mahout .classifier 包 中 的 confusionMatrix 类 
来 计算 混淆 矩阵 的 过 程 , 该 过 程 使 用 了 训练 集 或 测试 集中 真实 的 类 别 结 果 , 以 及 分 类 器 的 输出 结 
果 。 这 段 代码 会 对 数据 进行 两 次 扫描 : 一 次 是 获得 所 有 的 目标 变量 列表 , 另 一 次 是 填充 混淆 矩阵。 
通常 情况 下 第 一 次 扫描 并 不 一 定 要 做 , 这 是 因为 所 有 的 变量 值 可 以 通过 其 他 方法 来 得 到 。 程序 中 
的 关键 点 就 是 你 需要 传人 已 知 的 正确 目标 变量 值 和 模型 计算 出 的 目标 变量 值 。 


代码 清单 15-2 ”构建 混淆 矩阵 


BufferedReader in = new 
BufferedReader (new FileReader(inputFile)); 
List<String> symbols = new ArrayList<String>(); = 读 入 并 保存 值 
String line = in.readLine(); 
while (line != null) { 
String[] pieces = line.split(","); 
if (!symbols.contains(pieces[0])) { 
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symbols.add (pieces[0]); 
} 
line = in.readLine(); 


} 


ConfusionMatrix x2 = new ConfusionMatrix(symbols, "unknown"); 


in = new BufferedReader (new FileReader(inputFile) ); <- 一 对 真实 值 /预测 值 对 计数 
line = in.readLine(); 
while (line != null) { 

String[] pieces = line.split(","); 

String trueValue = pieces[0]; “| 输入 中 包括 目标 值 和 模型 输出 值 


String estimatedValue = pieces[1]; 
x2.addInstance(trueValue, estimatedValue) ; 
i=] 
line = in.readLine() ; “| x2 得 到 真实 结果 和 得 分 值 
System.out.printf("%s\n\n", x2.toString()); 


ConfusionMatrix}”4E AYE IA EE BUR FF BEA PR aE AY fa HH SR, BE APE F 
也 取决 于 所 选择 的 阔 值 。 基 于 混淆 矩阵 的 分 类 器 要 求 模 型 输出 单一 结果 〈 即 属于 哪个 类 )， 因 为 
此 时 只 有 最 后 的 结果 才 有 作用 , 所 以 这 时 会 丢失 模型 对 输出 结果 的 确信 度 。 当 分 类 器 能 输出 概率 
得 分 值 时 ， 可 以 通过 计算 一 个 称 为 炉 矩阵 的 混淆 矩阵 变 体 来 避免 上 述 的 信息 丢失 。 

SIRE, EE PTE BAM, 每 列 对 应 模型 的 输出 值 。 区 别 在 
于 , 箭 矩阵 的 元 素 计 算 的 是 每 个 真实 或 估计 类 别 组 合 的 概率 的 平均 对 数值 。 这 里 之 所 以 使 用 平均 
对 数 来 计算 主要 是 受到 概率 分 布 近似 值 最 优 求解 的 数学 原理 的 启发 。 该 平均 对 数 概率 表达 的 是 ， 
通过 比较 分 到 某 个 特定 类 别 的 分 类 器 似 然 和 该 类 别 全 面 性 的 普遍 程度 来 得 到 某 个 特定 的 分 类 器 
结果 的 非 正常 程度 。 一 个 好 的 模型 在 对 角 线 上 会 得 到 绝对 值 较 小 的 负数 , 而 非 对 角 线 上 为 绝对 值 
较 大 的 负数 。 这 可 以 类 比 与 混淆 矩阵 对 角 线 上 的 较 大 值 和 非 对 角 线 上 的 较 小 值 。 

科 矩阵 和 对 数 似 然 之 间 有 着 十 分 有 用 的 关联 , 即 科 矩阵 对 角 线 元 素 的 加 权 平 均值 就 是 对 数 似 
然 。 对 数 似 然 通 常 通过 计算 在 目标 类 别 上 得 分 的 平均 对 数值 来 得 到 。 下 一 节 当 中 将 会 进一步 深入 
讨论 对 数 似 然 。 

Auc 同 时 可 以 用 于 计算 混淆 矩阵 和 入 和 矩阵 ， 但 是 目前 它 仅 仅 支持 二 值 的 目标 变量 值 。 读 者 可 
以 采用 如 下 方法 往 Auc 对 象 中 加 入 数据 并 打印 出 混淆 矩阵 和 炉 和 矩阵 : 


Matrix entropy = xl.entropy(); 
for (int i = 0; i < entropy.rowSize(); i++) { 
for (int j = 0; j < entropy.columnSize(); j++) { 
System.out.printf("%10.2£ ", entropy.get(i, j)); 
} 
System.out.printf("\n"); 
} 


目前 为 止 ， Auc 类 仅仅 适用 于 二 值 目标 变量 的 情况 。 对 Auc 类 进行 扩展 以 支持 更 多 的 变量 类 
型 或 许 是 Mahout 未 来 版 本 的 一 个 功能 。 

当 模 型 输出 概率 得 分 值 时 , 正确 答案 得 分 的 概率 值 能 够 很 好 地 度量 模型 的 好 坏 程 度 。 如 果 该 
值 来 自 大 规模 存留 样本 的 平均 , 那么 它 能 提供 模型 质量 的 一 个 十 分 有 用 的 单一 度量 指标 。 该 指标 
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称 为 平均 对 数 似 然 。 尽 管 有 误解 的 可 能 ,但 上 述 指标 往往 仍 被 简称 为 对 数 似 然 。 
15.2.3 ”计算 平均 对 数 似 然 


对 数 似 然 是 基于 对 输出 结果 的 确信 或 非 确信 程度 来 对 模型 进行 评分 的 方法 。 对 数 似 然 要 求 模 
型 输出 一 个 概率 得 分 结果 。 如 果 模 型 对 错误 结果 给 出 很 低 的 概率 而 对 正确 结果 给 出 较 高 的 概率 那 
么 模型 就 获得 信用 值 。 对 数 似 然 评 佑 方法 的 一 个 非常 有 用 的 特点 是 ,即使 模型 并 没有 精确 地 得 到 
正确 结果 ， 但 是 在 可 能 结果 的 范围 有 所 限制 时 模型 仍然 得 到 部 分 的 信用 值 。 

对 数 似 然 具有 一 个 令 人 满意 的 数学 性 质 , 即 如 果 所 用 模型 能 够 精确 复制 目标 变量 的 真实 概率 
分 布 , 那么 只 能 最 大 化 对 数 似 然 得 分 。 对 数 似 然 和 AUC 可 以 互相 补充 。 对 数 似 然 可 以 用 于 多 值 输 
出 的 情况 ， 而 AUC 仅 能 用 于 二 值 输出 。 另 一 方面 ，AUC 可 以 接受 任意 类 型 的 得 分 ， 而 对 数 似 然 
要 求 得 分 反映 概率 的 估计 值 。AUC 的 值 要 求 在 0 到 1 之 间 以 便 对 模型 进行 比较 , 而 对 数 似 然 没 有 限 
定 取 值 范围 。 

由 于 不 同样 本 之 间 的 对 数 似 然 相 差 很 大 , 因此 单个 训练 样本 的 对 数 似 然 值 不 是 特别 有 用 , 但 
是 多 个 样本 上 的 平均 值 很 有 用 。 读 者 可 以 利用 on1inesummarizer 来 计算 分 类 器 的 平均 对 数 似 然 
估计 值 ， 然 后 汇总 出 这 些 估计 值 的 中 位 数 、 平 均 数 和 上 下 四 分 位 数 等 统计 量 。 具 体 做 法 如 下 : 


OnlineSummarizer summarizeLogLikelihood = new OnlineSummarizer(); 
for (int i = 0; i < 1000; i++) { 
Example x = Example.readExample() ; 
double 11 = classifier.logLikelihood(x.target, x.features); 
summarizeLogLikelihood.add(11); 
} 


System.out.printé ( 
"Average log-likelihood = %.2f (%.2£, %.2£) (25%%-ile, 75%%-ile) \n", 
summarizeLogLikelihood.getMean(), 
summarizeLogLikelihood.getQuartile(1), 
summarizeLogLikelihood.getQuartile(2)); 


上 述 代码 首先 读 入 样本 然后 计算 分 类 器 的 对 数 似 然 ， 最 后 将 结果 传递 给 onlinesummarizer。 
读 入 相关 信息 之 后 ， 可 以 利用 getMean () 和 getQuartile() 等 方法 来 获得 整个 对 数 似 然 分 布 的 
统计 信息 。 

对 数 似 然 的 最 大 值 为 9%， 而 最 小 负 值 却 没 有 限制 。 对 于 精度 非常 高 的 分 类 器 来 说 ,平均 对 数 
似 然 的 值 应 该 接近 于 分 类 器 的 平均 正确 率 和 目标 类 别 数目 的 乘积 。 而 对 于 精度 稍 差 的 分 类 器 , 特 
别 当 目标 类 别 很 多 的 情况 下 ， 平 均 正 确 率 倾向 于 0， 此 时 分 类 器 的 比较 相当 困难 。 另 一 方面 ， 对 
数 似 然 能 够 在 分 类 器 很 差 即 分 类 器 很 少 甚 至 从 来 没有 分 对 过 ， 导 致 平均 正确 率 为 0 的 情况 下 ， 仍 
然 能 够 区 分 分 类 器 的 好 坏 。 

对 于 内 部 开发 者 而 言 ， 对 数 似 然 或 许 是 一 个 不 错 的 模型 比较 方法 , 但 是 当 要 向 非 技 术 人 士 展 
示 结 果 时 ， 采 用 正确 率 甚至 混淆 矩阵 可 能 效果 更 好 。 

诸如 AUC 和 对 数 似 然 之 类 的 指标 能 够 告诉 我 们 模型 的 总 体 性 能 优 劣 ,但 是 却 无 法 给 出 模型 优 
劣 的 原因 。 为 了 解 这 个 原因 ， 需 要 进入 模型 内 部 对 其 进行 深 和 剖析。 
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15.2.4 ”模型 剖析 
对 模型 进行 深入 剖析 是 了 解 哪些 特征 导致 结果 出 现 较 大 差异 的 途径 之 一 。Mahout 可 以 使 用 


org.apache.mahout.classifier.sgd 包 中 的 ModelDessector 来 对 AbstractVvector 
classifier 的 继承 类 进行 剖析 处 理 。 

我 们 还 记得 ， 作 为 预测 变量 的 特征 必须 要 进行 词 条 化 和 向 量化 处 理 才 能 在 学 习 算 法 中 使 用 。 
这 些 特征 向 量 属于 模型 理解 所 需要 的 考察 线索 之 一 。MoaelDissector 以 一 个 特征 向 量 、 该 特征 
向 量 的 构建 轨迹 和 模型 作为 输入 值 。 然 后 对 特征 向 量 进行 微调 来 观察 结果 的 变化 情况 。 通 过 在 一 
系列 样本 上 求 平 均 ， 可 以 确定 不 同 特征 的 效果 。 当 需要 输出 汇总 结果 时 ，ModelDissector 会 返 
回 那 些 变量 及 其 值 的 列表 ， 这 个 列表 给 出 了 最 大 的 平均 效果 。 

接 下 来 的 代码 片段 给 出 的 是 如 何 利 用 Mode1lDissector 来 给 出 对 模型 输出 结果 具有 最 大 影 
啊 的 变量 列表 的 过 程 。 第 一 步 是 关闭 模型 使 得 所 有 的 学 习 和 正则 化 过 程 结束 ， 第 二 步 是 建立 
ModelDissector 及 其 关联 轨迹 词典 。 

model .close(); 


Map<String, Set<Integer>> traceDictionary = 
new HashMap<String, Set<Integer>>(); 
ModelDissector md = new ModelDissector(); 


encoder.setTraceDictionary(traceDictionary) ; 
一 且 预 备 条 件 就 绪 的话 ， 就 需要 在 多 个 样 例 上 反复 循环 。 对 于 每 个 样 例 ， 需 要 消除 轨迹 ， 模 
型 剖析 器 要 随 着 特征 向 量 、 轨 迹 和 模型 而 更 新 。 


for (... lots of examples ...) { 
traceDictionary.clear(); 
Vector v = encodeFeatureVector(example, actual, leakType) ; 
md.update(v, traceDictionary, model); 


最 后 ， 可 以 要 求 模型 剖析 咒 输 出 模型 的 特征 名 称 及 其 权重 的 汇总 结果 列表 。 


List<ModelDissector.Weight> weights = md.summary (100); 
for (ModelDissector.Weight w : weights) { 
System. out.printf("%s\t%.1f\n", 
w.getFeature(), w.getWeight()); 
} š 


这 里 的 循环 语句 是 伪 代 码 但 其 余 代码 都 来 自 实 际 工作 的 代码 。 代 码 的 关键 因素 在 于 编码 当 
中 使 用 了 轨迹 词典 , 该 词典 记录 的 用 于 后 面 模型 剖析 的 线索 信息 。 用 户 不 需要 将 很 多 训练 样 例 
放 入 编码 器 中 来 获得 大 量 的 线索 信息 。 一 般 而 言 ， 如 果 有 几 千 或 者 几 万 样 例 ， 基 本 上 应 该 就 可 
WUT. 

ModelDissector 的 输出 结果 对 于 一 个 表现 很 差 的 模型 的 诊断 很 有 帮助 。 在 一 个 训练 恰 
当 的 模型 中 ， 最 重要 的 变量 及 其 值 应 该 能 被 该 问题 的 领域 专家 所 理解 。 但 在 一 个 失败 模型 当 
中 更 常见 的 是 ,最 重要 的 变量 明显 很 荒 廖 。 在 接 下 来 的 几 节 当 中 , 读者 会 看 到 成 功 和 失败 的 模型 
案例 。 
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15.2.5 20 Newsgroups 语 料 上 SGD 分 类 器 的 性 能 指标 计算 


14.4 节 利用 SGD 算 法 写 了 一 个 分 类 器 来 对 20 Newsgroup 语 料 分 类 。 本 节 将 对 上 述 例子 进行 
展 以 集中 关注 分 类 器 的 性 能 评估 。 这 里 我 们 会 对 整个 学 习 程序 连同 性 能 指标 一 起 进行 剖析 ,以 便 
了 解 这 些 部 分 如 何 一 起 工作 。 下 几 节 中 , 我 们 会 在 该 例子 中 注入 几 个 典型 的 漏洞 (bug ), 来 观察 
它们 对 结果 的 影响 。 

下 面 的 代码 清单 给 出 了 在 20 Newsgroups 语 料 上 训练 出 一 个 AdaaptiveLogisticRegression 
模型 的 过 程 。 这 个 例子 与 14.4 节 中 的 例子 有 些 类 似 。 


代码 清单 15-3 一 个 完整 的 带 过 程 诊 断 的 模型 训练 程序 


private static final Analyzer analyzer = 
new StandardAnalyzer (Version.LUCENE 30); 

private static final FeatureVectorEncoder encoder = 
new StaticWordValueEncoder ("body") ; 

private static final FeatureVectorEncoder bias = 
new ConstantValueEncoder ("Intercept"); 


public static void main(String[] args) throws IOException { 
File base = new File(args[0]); 
int leakType = 0; 
if (args.length > 1) { 
leakType = Integer.parseiInt(args[1]); 
} 
Dictionary newsGroups = new Dictionary(); 
encoder.setProbes (2) ; 


AdaptiveLogisticRegression learningAlgorithm = 设 定 较 短 的 生成 时 间 
new AdaptiveLogisticRegression(20, FEATURES, new L1()); 


learningAlgorithm. setInterval (800); 
learningAlgorithm. setAveragingWindow (500) ; 


List<File> files = Lists.newArrayList(); è 为 平均 值 设 定 小 窗口 
File[] directories = base.listFiles(); 
Arrays.sort(directories, Ordering.usingToString()); 
for (File newsgroup : directories) { 
if (newsgroup.isDirectory()) { 
newsGroups. intern (newsgroup. getName()); 
files.addAll (Arrays .asList (newsgroup.listFiles())); 


} 
} 
Collections.shuffle(files) ; 
int k = 0; pra 随机 化 训练 次 序 


for (File file : files) { 
String ng = file.getParentFile().getName() ; 
int actual = newsGroups.intern(ng) ; 


Vector v = encodeFeatureVector(file, actual, leakType) ; 
learningAlgorithm.train(actual, v); 
k++; 


State<AdaptiveLogisticRegression.Wrapper, CrossFoldLearner> best = 
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learningAlgorithm.getBest (); 


if (best != null && k % 500) { 
CrossFoldLearner model = 
best.getPayload().getLearner (); 
double averageCorrect = model.percentCorrect(); 
double averageLL = model.logLikelihood(); 
System.out.printf ("d\t%.3£\t3.2f£\t%s\n", 
k, averageLL, averageCorrect * 100, leakLabels[leakType % 3]); 
} > 
} 9 剖析 最 终 的 最 优 模型 
dissect (newsGroups, learningAlgorithm, files); 
} 


上 面 的 程序 一 开始 对 学 习 算法 进行 分 配 和 配置 处 理 。 这 里 为 了 简单 起 见 ， 选 择 的 是 
adaptiveLogisticRegression 算 法 ,使 用 该 算法 不 需要 担心 学 习 参 数 。 如 果 不 介意 学 习 参 数 
微调 的 话 , 读者 也 可 以 选择 crossFoldLearner 算 法 。 上 述 程序 为 内 部 的 进化 算法 设置 了 一 个 很 
短 的 生成 时 间 , 这 是 因为 数据 集 相对 较 小 算法 可 以 学 习 得 很 快 @。 类 似 地 , 诊断 用 的 平均 窗口 大 
小 也 设置 得 很 短 ， 以 便 能 够 快速 显示 学 习 算 法 的 运行 状况 @。 

在 准备 训练 过 程 时 , 需要 一 个 训练 集中 所 有 文档 的 列表 。 我 们 也 有 可 能 想 对 这 个 列表 进行 随 
机 排序 以 提高 学 习 的 效率 。 为 了 训练 模型 ,程序 在 随机 排序 的 文档 列表 上 反复 循环 迭代 人 @。 整 个 
训练 过 程 包括 到 向 量 形式 的 转换 以 及 模型 的 实际 训练 。 一旦 AdaptiveLogisticRegression 中 
的 进化 算法 开始 运行 , 它 将 提供 模型 池 中 最 好 的 模型 。 可 以 利用 该 模型 来 获得 近期 训练 样本 的 平 
均 对 数 似 然 和 正确 率 。 

当 完 成 训练 之 后 ， 可 以 对 模型 进行 剖析 @。 具 体 的 剖析 过 程 在 如 下 代码 清单 中 给 出 。 


代码 清单 15-4 20 Newsgroups 语 料 上 的 模型 剖析 


private static void dissect(Dictionary newsGroups, 
AdaptiveLogisticRegression learningAlgorithm, 
Iterable<File> files) throws IOException { 
CrossFoldLearner model = 关闭 模型 以 确定 权重 
learningAlgorithm.getBest().getPayload().getLearner() ; 
model.close(); 


ModelDissector md = new ModelDissector(); 
Map<String, Set<Integer>> traceDictionary = 

Maps .newTreeMap () ; '© 提供 轨迹 词典 
encoder.setTraceDictionary (traceDictionary); 
bias.setTraceDictionary(traceDictionary) ; 


for (File file : permute(files, rand).subList(0, 500)) { 
String ng = file.getParentFile().getName() ; 
int actual = newsGroups.intern(ng) ; 


P 清除 词典 以 防止 内 存 阻塞 


traceDictionary.clear(); 
Vector v = encodeFeatureVector(file, actual, leakType) ; 
md.update(v, traceDictionary, model); 

} 


List<String> ngNames = Lists.newArrayList (newsGroups.values()); 
for (ModelDissector.Weight w : md.summary(100)) { 
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System.out.printf("%s\t%.1f\t%s\t%s\n", w.getFeature(), w.getWeight(), 
ngNames.get (w.getMaxImpact() + 1)); 
} 
} 


模型 剖析 时 , 首先 必须 确认 所 有 的 模型 参数 都 已 经 确定 @。 关闭 一 个 在 线 模型 并 不 能 防止 进 
一 步 的 训练 ， 它 能 够 确认 当前 已 经 拥有 齐 析 的 一 致 状态 。 

剖析 中 , 需要 将 特征 编码 到 一 个 称 为 轨迹 词典 的 对 象 中 全 。 该 对 象 记录 的 是 哪个 预测 变量 和 
值 分 配 到 特征 向 量 中 的 哪个 位 置 。 这 样 做 会 大 大 降低 编码 的 速度 ,因此 并 非常 规 的 做 法 。 通 过 清 
除 每 个 或 每 几 个 样本 的 轨迹 词典 , 可 以 避免 轨迹 词典 在 内 存 中 占据 太 大 空间 合 。 在 对 每 个 样本 编 
码 并 且 记 录 特 征 提 取 的 细节 之 后 ， 就 将 细节 信息 传 给 模型 前 析 器 。 

一 旦 处 理 完 一 定量 的 训练 样本 之 后 ， 就 可 以 要 求 模 型 剖析 器 返回 最 重要 的 变量 及 其 值 列表 。 
本 例 当中 返回 的 是 前 100 个 。 

如 果 运 行 这 个 例子 ,我们 会 发 现 正确 率 会 如 图 15-1 所 示 那 样 变化 。 


t() 


percentCorrec 


0 2000 4000 6000 8000 10000 
训练 样本 


图 15-1 平均 正确 率 随 训练 样本 数 增 加 而 增长 的 示意 图 。 上 面 的 灰色 横 线 给 出 了 预期 
的 最 大 结果 ， 该 结果 来 自 现 有 相关 工作 中 所 报告 的 最 优 结果 


如 果 对 图 15-1 的 数据 进行 多 篇 扫描 ， 实 际 的 性 能 可 能 会 在 中 间 80% 那 段 接近 当前 最 优 水 平 。 
对 数据 进行 多 遍 扫 描 不 会 像 先 前 在 未 知 的 额外 数据 上 训练 时 那样 使 模型 有 大 幅 提 升 , 这 是 因为 同 
一 数据 的 多 遍 扫描 没有 带 来 训练 数据 多 样 性 的 变化 。 幸 运 的 是 , 基于 Mahout 的 分 类 当中 永远 都 不 
必 担 心 样本 太 小 , 这 是 因为 Mahout 之 所 以 出 名 的 最 大 原因 就 是 能 够 处 理 大 数据 集 。 当 然 对 数据 进 
行 多 遍 扫 描 仍然 可 以 提高 模型 的 性 能 ， 因 为 每 一 遍 扫 描 系 统一 定 程度 上 都 在 学 习 。 

下 面 给 出 了 一 个 模型 剖析 后 的 典型 运行 结果 ,该 结果 与 图 15-1 有 点 类 似 。 下 面 各 列 分 别 是 特 
征 名 称 ( 这 里 用 的 是 单个 词语 )、 该 特征 的 最 大 权重 和 在 该 权重 下 的 目标 变量 值 。 
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body=space 2.2 sci.space 

body=sale 1.9 misc.forsale 

body=car 1.9 rec.autos 
body=windows 1,8 comp.os.ms-windows.misc 
body=mac 1.7 comp.sys.mac.hardware 
body=bike 1:7 rec.motorcycles 
body=apple k comp.sys.mac.hardware 
body=gun 1.5 talk.politics.guns 
body=baseball 1.5 rec.sport.baseball 
body=graphics IS comp.graphics 
body=key 1.5 sci.crypt 

body=x 1.4 comp.windows.x 
body=dod 1.4 rec.motorcycles 
body=orbit 1.4 sci.space 
body=clipper Let sci.crypt 
body=encryption 1.3 sci.crypt 

body=window 1.3 comp.windows.x 
body=image 1.2 comp.graphics 
body=hockey a rec.sport.hockey 
body=atheists a alt.atheism 


这 些 特 征 显 然 相当 合理 ， 只 有 单词 dod 可 能 有 点 意外 。 该 单词 显然 是 rec.motorcycles 
Usenet 讨 论 组 的 一 个 特征 。 考 察 训 练 文本 会 发 现 一 个 有 趣 的 现象 ,有 一 篇 长 贴 ， 它 反复 将 dod 作 
为 无 意义 词 使 用 。 如 果 这 个 词 的 生命 周期 很 短暂 的 话 , 该 特征 可 能 对 于 将 来 的 性 能 没有 什么 帮助 ， 
但 至 少 也 不 会 有 什么 坏处 。 

迄今 为 止 , 我 们 已 经 了 解 了 如 何 衡 量 分 类 器 “好 ”的 程度 。 留 给 我 们 做 的 是 理解 这 些 指 标的 
含义 。 接 下 来 我 们 介绍 在 性 能 指标 计算 中 可 能 出 现 的 典型 问题 以 及 如 何 诊断 并 解决 这 些 问 题 。 
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使 用 实际 数据 和 实际 分 类 器 时 ,几乎 可 以 肯定 的 是 , 初始 的 建 模 尝试 会 失败 ， 有 时 甚至 会 很 
惨烈 。 与 通常 的 软件 工程 不 同 ， 模 型 的 失败 通常 并 不 像 废弃 的 空 指针 或 内 存 溢出 异常 那么 明显 。 
与 此 相反 , 一 个 失败 的 模型 可 能 会 输出 异常 精确 的 结果 。 这 样 的 模型 同时 也 会 输出 错误 率 很 高 的 
结果 ， 看 上 去 模型 不 太 对 头 。 如 果 发 现 ,特别 在 模型 构建 的 初期 ， 分 类 器 的 结果 极端 精确 或 者 精 
糕 ， 那 么 这 一 结果 应 该 多 少 值得 怀疑 ， 这 一 点 相当 重要 。 

本 节 将 利用 前 面 介绍 过 的 技术 , 帮助 读者 理解 性 能 指标 如 何 帮 助 了 解 在 分 类 器 生命 周期 中 的 
各 种 “ 奢 磋 碰 碰 ”。 为 实现 这 一 点 ， 读 者 必须 了 解 分 类 器 中 的 常见 问题 以 及 这 些 问 题 如 何 通过 性 
能 指标 来 体现 。 

分 类 器 模型 构建 过 程 中 的 两 个 最 普遍 的 问题 称 为 目标 泄漏 (target leak ) 和 特征 提取 月 演 
( broken feature extraction )。 当 训练 数据 的 某 个 特征 在 某 种 程度 上 是 目标 变量 提供 的 信息 在 生产 环 
境 中 并 不 出 现 的 , 那么 就 称 为 发 生 了 一 次 目标 泄漏 。 此 时 的 分 类 器 就 相当 于 自己 出 题 考试 然后 提 
交 解 答 一 样 , 不 出 意外 , 这 种 情况 下 分 类 器 可 以 取得 很 好 的 效果 。 这 类 问题 的 出 现 可 能 相当 隐蔽 ， 
使 其 很 难 被 发 现 。 如 果 不 出 现 灾难 性 的 结果 , 很 差 的 特征 提取 也 很 难 检测 出 来 。 下 面 几 节 将 考察 
上 述 两 类 问题 的 案例 。 


258 第 15 章 分 类 器 评估 及 调 优 


15.3.1 目标 泄漏 


目标 泄漏 是 由 于 目标 变量 的 信息 包含 在 用 于 训练 分 类 器 的 预测 变量 中 而 带 来 的 漏洞 。 目 标 泄 
漏 的 一 个 最 主要 的 征兆 是 结果 的 性 能 好 得 难以 置信 。 

为 帮助 读者 理解 如 何 避 免 目标 泄漏 ， 我 们 可 以 在 代码 清单 15-3 的 20 Newsgroups 分 类 代码 中 有 意 
地 插入 一 个 目标 泄漏 。 具体 地 , 我 们 可 以 对 程序 进行 简单 的 修改 , 在 训练 样本 中 增加 一 个 目标 泄漏 : 


private static final SimpleDateFormat ("MMM-yyyy"); 
// 1997-01-15 00:01:00 GMT 
private static final long DATE_REFERENCE = 853286460; 


long date = (long) (1000 * 

(DATE_REFERENCE + target * MONTH + 1 * WEEK * rand.nextDouble())); 
Reader dateString = new StringReader(df.format (new Date(date))); 
countWords (analyzer, words, dateString); 


和 以 前 不 一 样 的 是 , 这 里 的 代码 在 数据 的 日 期 字段 注入 了 一 个 目标 泄漏 。 选 择 日 期 字段 可 以 
使 得 来 自 同一 新 闻 组 (Newsgroup ) 的 文档 看 上 去 都 出 自 同一 月 份 ， 而 不 同 新 闻 组 (Newsgroup ) 
的 文档 出 自 不 同月 份 。 日期、 时 间 和 ID 号 码 都 是 常见 的 目标 泄漏 源 , 但 我 们 可 以 选择 其 中 的 任意 
一 个 。 甚 至 是 目标 变量 本 身 都 可 能 偶然 地 包含 在 预测 因子 中 。 正 如 我 们 所 料 的 那样 ， 这 种 错误 是 
一 切 目标 泄漏 的 根源 。 

当 训练 带 有 上 述 目标 泄漏 的 模型 时 ， 模 型 的 精度 会 变 得 相当 好 。 图 15-2 给 出 了 此 时 模型 的 运 
行 结果 。 可 以 看 到 ， 当 目标 泄漏 仅 和 主题 行 一 起 出 现时 ， 精 度 可 以 达到 100%。 这 么 高 不 太 现实 ， 
而 目前 相关 研究 工作 中 报道 的 最 高 值 大概 在 86% 左 右 。 当 把 目标 泄漏 加 到 从 标题 行 和 消息 体 的 所 
有 文本 中 时 ， 学 习 算 法 会 运行 更 长 的 时 间 ， 但 是 不 久 仍然 会 获得 一 个 不 可 思议 的 高 精度 。 
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图 15-2 目标 泄漏 导致 的 不 可 思议 的 高 精度 值 ， 但 并 不 总 是 很 快 就 达到 高 精度 
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从 图 15-2 的 结果 可 以 看 出 , 代表 包含 目标 泄漏 的 两 条 线 很 快 都 能 达到 100% 的 精度 。 对 于 这 个 
问题 来 说 , 这 种 极端 的 精度 不 可 信 。 男 一 方面 , 不 带 漏洞 的 SGD 模 型 只 能 刚刚 达到 该 问题 在 相关 
工作 中 的 最 优 值 。 此 时 的 性 能 水 平 不 仅 很 好 ， 而 且 可 信 。 

当面 对 实际 数据 而 不 是 大 家 认真 研究 过 的 研究 数据 时 , 不 可 能 从 一 开始 就 知道 “过 好 ”到 底 
是 多 好 。 如 果 模 型 表现 得 异常 好 , 或 者 如 果 在 新 数据 的 表现 显著 差 于 交叉 检验 的 预测 结果 ， 那么 
就 值得 观察 一 下 ModelDissector 的 输出 结果 。 

下 面 给 出 的 是 对 上 述 某 个 存在 目标 泄漏 的 例子 进行 模型 剖析 的 前 些 行 的 结果 。 其 中 每 一 列 分 


别 达标 词 项 、 
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权重 和 权重 对 应 的 新 闻 组 。 


sci.electronics 

comp .Graphics 

sci.med 
comp.sys.mac.hardware 
talk.religion.misc 
misc.forsale 
rec.motorcycles 
talk.politics.misc 
comp.os.ms-windows.misc 
sci.space 
talk.politics.guns 
soc.religion.christian 
comp.sys.ibm.pc.hardware 
comp.windows.x 
rec.sport.baseball 
alt.atheism 

rec.autos 
rec.sport.hockey 
talk.politics.guns 
sci.crypt 
comp.os.ms-windows.misc 
i.electronics 
i.electronics 
i.electronics 

sci.med 

-autos 

misc.forsale 
comp.graphics 
talk.religion.misc 
comp.graphics 
misc.forsale 
talk.religion.misc 
sci.med 


从 上 面 的 结果 可 以 看 出 , 权重 最 大 的 那些 特征 基本 都 是 日 期 。 除 了 标志 大 规模 季节 变化 的 日 
期 特征 如 圣诞 节 之 外 , 其 他 日 期 特征 几乎 都 不 太 可 能 很 有 效 地 预测 主题 。 而 这 里 几乎 所 有 的 前 20 
个 特征 都 是 特定 日 期 , 这 完全 无 法 令 人 相信 ,因此 唯一 的 合理 结论 就 是 这 些 特征 代表 了 某 个 目标 
泄漏 。 当 然 ， 这 里 我 们 有 意 地 注入 了 一 个 目标 泄漏 ， 因 此 找到 一 个 漏洞 完全 不 会 令 人 意外 。 

另 一 方面 , 我 们 也 可 以 通过 细微 考察 排名 靠 前 的 非 漏 洞 特征 来 发 现 问 题 AdaptiveLogistic 
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Regres sion 通 过 调节 学 习 率 来 对 性 能 进行 优化 。 在 存在 目标 泄漏 的 情况 下 ， 该 算法 的 一 个 好 处 
就 是 一 旦 发 现 漏 洞 特征 就 会 很 快 降低 训练 学 习 率 。 同 样 , 其 他 无 关 特征 的 权重 就 会 被 冻结 而 不 会 
像 正 常 模型 为 获得 好 的 性 能 那样 将 权重 降低 到 0。 因 此 ， 我 们 会 发 现 taber、market、passes 及 bars 
等 词 都 分 别 被 列 为 sci .electronics、comp.graphics、misc.forsale 和 sci .med 等 类 别 的 
高 权重 特征 。 这 些 特 征 在 最 终 模 型 中 的 存在 也 表明 学 习 率 在 没有 正当 调整 之 前 被 冻结 。 


15.3.2 ”特征 提取 衣 溃 


另 一 个 常见 的 问题 是 特征 提取 部 分 在 某 种 程度 上 发 生前 溃 。 和 目标 泄漏 导致 性 能 异常 好 不 
同 ， 特 征 提取 前 溃 会 导致 性 能 远 低 于 预想 值 。 
下 面 的 代码 给 出 的 是 Lucene 词 条 化 工具 如 何 对 20 Newsgroups 数 据 进行 词 条 化 处 理 的 过 程 : 


TokenStream ts = analyzer.tokenStream("text", in); 
ts.addAttribute(TermAttribute.class) ; 
while (ts.incrementToken()) { 
String s = ts.getAttribute(TermAttribute.class) .term(); 
words .add(s) ; 


} 

一 个 很 容易 犯 的 错误 就 是 使 用 s = ts. toString () 而 不 是 上 述 正确 的 term() 调用 来 获取 文 
AMA, SRR AR. WRAL TANER, 那么 词 条 化 之 后 在 词 条 中 就 会 保留 额外 的 
信息 从 而 导致 在 不 同位 置 上 的 相同 词语 却 看 上 去 像 两 个 词 。 这 使 得 预测 变量 受到 影响 ,从 这 些 变 
量 来 学 习 ， 就 算 不 是 不 可 能 也 会 十 分 困难 。 

图 15-3 给 出 了 当 存 在 词 条 化 错误 时 性 能 上 可 能 表现 出 的 结果 。 正确 率 从 没 比 5% 高 多 少 , 当然 
也 就 是 说 模型 的 结果 可 能 是 随机 选择 的 结果 。 


percentCorrect () 


0 2000 4000 6000 8000 10000 
训练 样本 


图 15-3 ”存在 词 条 化 错误 的 系统 性 能 从 不 超过 某 个 随机 选择 系统 的 预想 水 平 。 灰 线 给 
出 的 是 随机 选择 情况 下 的 预计 性 能 
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由 于 所 有 输入 数据 都 因 词 条 化 错误 而 崩 汝 , 模型 没有 信息 可 用 于 产生 好 的 结果 , 所 以 上 述 例 
子 十 分 极端 实际 中 ,更 普遍 的 情况 是 某 些 字 段 衣 江 而 其 他 的 都 还 好 。 如 果 崩 溃 字 段 对 模型 有 帮 
Bh, 那么 这 种 部 分 的 崩 演 情况 会 导致 性 能 的 降低 , 但 是 此 时 的 性 能 曲线 不 一 定 就 像 图 15-3 那 样 平 
坦 ， 这 是 因为 未 崩溃 的 字段 仍然 承载 了 一 定 的 信息 。 

发 现 上 述 问 题 的 最 好 方法 是 计算 系统 中 值 的 汇总 统计 信息 。 如 果 值 是 连续 的 ， 就 利用 
Onlinesummarizer 来 检查 均值 、 最 小 值 、 最 大 值 和 四 分 位 数 。 这 些 数值 应 该 看 上 去 合理 。 对 类 
别 型 、 单 词 型 和 文本 型 数据 ， 我 们 应 该 计算 出 词 条 的 数目 并 在 对 数 -对 数 坐标 轴 上 画 出 数目 和 排 
名 之 间 的 关系 图 。 对 于 20 Newsgroups 数 据 来 说 , 我 们 可 能 会 得 到 类 似 图 15-4 的 结果 。 对 于 单词 型 
和 文本 型 数据 ， 对 每 个 字段 可 能 会 出 现 类 似 的 结果 。 而 在 上 述 注 入 词 条 化 错误 的 情况 下 ,基本 上 
所 有 的 词 项 频率 都 正好 是 1。 


1 100 10000 


排名 


图 15-4 在 20 Newsgroups 数 据 上 一 -个 正确 词 条 化 工具 处 理 下 的 词 条 数目 与 排名 之 间 的 
关系 图 。 在 词 条 化 工具 崩溃 时 ， 可 能 所 有 的 词 项 数目 都 是 1 


表 15-4 给 出 了 一 些 当 加 入 insertTokenError 时 产生 的 错误 词 条 , 同时 也 给 出 了 相应 的 正确 
词 条 。 记 住 这 里 的 所 有 的 括号 、 逗 号 和 数字 都 是 错误 词 条 的 一 部 分 。 


表 15-4 ”错误 词 条 导致 特征 提取 崩溃 的 例子 


错误 词 条 正确 词 条 
(term=elastic,startOffset=1705,endOffset=1712....) elastic 
(term=elastic,startOffset=2064,endOffset=2071.,...) elastic 
(term=failed,startOffset=1236,endOffset=1242....) failed 
(term=failed,startOffset=245 ,endOffset=251,...) failed 


(term=failed,startOffset=974,endOffset=980.,...) failed 
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从 表 15-4 可 以 看 出 ， 如 果 因 为 牙 忽 对 于 同一 词 条 保留 了 太 多 的 信息 会 使 得 该 词 条 重复 多 次 ， 
而 且 每 次 看 上 去 是 不 同 的 词 条 。 这 种 情况 会 使 得 这 些 错误 词 条 对 于 分 类 来 说 几乎 没 用 , 这 是 因为 
在 另外 一 篇 文档 中 出 现在 同一 位 置 几乎 不 太 可 能 。 

到 现在 为 止 , 我 们 知道 诸如 目标 泄漏 和 骨 溃 的 特征 提取 之 类 的 问题 都 会 使 得 分 类 器 失效 ， 下 
面 我 们 转向 一 个 更 乐观 的 话题 ， 即 如 何 利用 评估 来 调整 和 优化 分 类 器 以 提高 其 性 能 。 


15.4 ”分 类 器 性 能 调 优 


除了 纠正 训练 数据 上 的 错误 之 外 , 还 有 很 多 方法 可 以 提高 分 类 器 的 性 能 。 这些 方 法 包括 通过 
改变 问题 本 身 来 使 分 类 融 分 类 更 容易 。 其 他 方法 还 包括 使 得 分 类 融 在 给 定数 据 上 运行 性 能 更 优 。 
第 一 种 情况 下 ， 有 可 能 可 以 找到 新 的 预测 变量 、 预 测 变量 的 组 合 或 转换 结果 来 帮助 提高 分 类 器 。 
另 一 种 可 能 是 去 除 那些 对 分 类 没有 帮助 的 预测 变量 或 者 对 目标 变量 进行 简化 。 第 二 种 情况 下 ,可 
以 在 学 习 算 法 中 调整 学 习 率 或 者 特征 编码 策略 。 

任 一 情况 下 ， 当 对 分 类 器 进行 调整 时 ,一 定 要 对 修改 前 后 的 性 能 进行 仔细 和 真实 的 度量 。 如 
果 所 做 的 修改 导致 的 性 能 差异 不 是 特别 显著 的 话 ， 只 检查 一 些 常规 的 样本 往往 并 不 够 。 实 际 上 ， 
一 旦 系统 在 合理 运行 , 大 部 分 调整 都 只 会 导致 性 能 的 轻微 提高 或 降低 , 而 这 些 性 能 的 变化 只 能 通 
过 精确 的 测量 才能 发 现 。 


15.4.1 ”问题 调整 


一 提 到 分 类 系统 的 调整 ,大 部 分 人 都 会 马上 想到 调整 学 习 算法 以 尽 可 能 地 提高 精确 度 。 然 而 ， 
这 种 想法 可 能 会 因为 错过 最 佳 的 机 会 而 带 来 麻烦 .通常 而 言 ,最 大 的 提高 来 自 对 问题 本 身 的 调整 。 
这 包括 输入 、 输 出 的 改变 甚至 对 输出 解释 的 改变 。 

1. 剔除 无 价值 的 变量 

有 些 变量 对 于 分 类 器 帮助 不 大 甚至 毫 无 作用 ， 因 此 将 这 些 变量 从 分 类 器 中 剔除 可 能 会 更 好 。 
有 点 看 似 反常 的 是 , 去 除 这 些 信 息 之 后 由 于 可 以 使 得 学 习 算法 集中 在 更 少 的 变量 上 , 因此 可 以 在 
有 效 训练 时 间 内 学 到 更 好 的 模型 来 提高 分 类 精度 。15.4 节 中 给 出 的 目标 泄漏 的 例子 就 是 这 个 现象 
的 很 好 的 一 个 例子 。 在 该 例 当 中 ， 当 目标 泄漏 周围 有 很 多 文本 时 ,学 习 算 法 花 了 很 多 的 时 间 来 学 
习 这 些 并 不 重要 的 目标 泄漏 模型 。 反 之 ， 也 可 以 说 这 些 漏 洞 变量 自己 分 散 了 学 习 算法 的 注意 力 ， 
阻碍 它 去 关注 那些 在 主题 和 文本 主体 部 分 真正 有 价值 的 变量 。 

正则 化 是 上 述 思 路 的 一 个 更 一 般 的 版 本 。 正则 化 是 通过 降低 某 些 变量 的 影响 甚至 完全 剔除 这 
些 变量 来 避免 过 拟 合 的 一 种 数学 技术 。 它 通过 同时 最 小 化 学 习 算 法 的 错误 和 模型 复杂 度 来 实现 。 
在 Mahout 的 术语 中 ， 对 复杂 度 进行 惩罚 的 数学 函数 称 为 先 验 (prior )。 

诸如 正则 化 SGD 之 类 的 算法 试图 通过 惩罚 模型 中 变量 的 引入 来 去 除 一 些 可 能 的 变量 。 在 其 他 
条 件 都 相同 的 情况 下 ,这 些 算 法 倾向 于 不 包含 变量 。 即 便 如 此 ， 要 了 解 哪些 变量 可 以 史 除 ， 这些 
算法 也 需要 花费 一 定 的 时 间 。 如 果 齐 析 模 型 时 发 现 某 些 变量 从 未 在 模型 中 涉及 , 那么 将 这 些 变量 
剔除 可 能 有 利于 加 速 后 续 的 训练 过 程 。 类似 地 , 不 允许 使 用 某 些 类 型 的 变量 之 后 会 得 到 的 新 的 模 
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型 的 版 本 ， 对 这 些 版 本 进行 测试 非常 有 用 。 

通过 剔除 那些 不 携带 信息 的 变量 , Mahout 中 的 其 他 分 类 器 算法 ( 如 朴素 贝 叶 斯 和 补充 朴素 贝 
叶 斯 ) 能 够 获 益 更 大 ， 这 是 因为 这 些 算 法 本 身 无 法 通过 正则 化 来 剔除 这 些 变量 。 

有 一 种 情况 相对 比较 普遍 ,就 是 剔除 两 个 变量 中 的 一 个 没有 任何 变化 , 但 是 如 果 同 时 剔除 两 
个 会 导致 性 能 显著 下 降 。 还 有 可 能 是 单独 使 用 某 个 特定 变量 跟 做 出 随机 决定 的 结果 差不多 。 如 果 
你 觉得 这 个 变量 对 性 能 影响 微乎其微 的 话 , 那 就 把 它 吻 除了 吧 。 但 是 有 时 候 即 使 该 变量 单独 使 用 
时 看 上 去 没有 任何 预测 力 , 但 是 能 够 提高 其 他 变量 的 预测 性 能 。 保守 的 说 , 删除 任何 一 个 没有 出 现 
在 最 终 模 型 剖析 中 的 变量 可 能 都 会 带 来 正面 影响 ， 但 是 对 于 其 他 情况 还 是 要 具体 问题 具体 分 析 。 

2. 增加 新 的 变量 、 交 互 和 导出 值 

构建 一 个 分 类 系统 时 , 有 些 数 据 比 其 他 数据 更 容易 转换 成 可 用 格式 。 数 据 准备 过 程 中 的 困难 
将 会 导致 学 习 算 法 所 需要 的 预测 变量 交付 时 间 的 延迟 。 相 反 地 ， 有些 变 量 可 能 会 早 于 其 他 变量 可 
Ho 在 大 型 项 目 中 , 某 些 预测 变量 交付 的 延迟 时 间 很 容易 就 会 上 升 到 数 周 或 者 数 月 ,而 且 有 些 预 
测 变量 很 可 能 会 被 证 明 是 无 法 获得 的 。 

上 述 延迟 的 潜在 可 能 性 也 意味 着 ,无 论 有 什么 可 用 数据 ， 建 模 和 评估 过 程 都 要 早点 开始 。 一 
件 常常 发 生 的 事情 就 是 初始 可 用 的 预测 变量 已 经 足以 构建 一 个 可 部 署 的 模型 ,即使 早期 的 模型 在 生 
产 中 可 用 ,额外 变量 也 可 能 会 提高 系统 的 系统 ， 因 此 它们 一 旦 可 用 ， 我 们 需要 尽早 对 其 进行 测试 。 

男 一 个 常见 的 新 变量 来 源 是 对 现存 的 连续 变量 的 变形 ,将 原始 值 的 对 数值 或 者 平方 值 加 入 到 
系统 中 是 值得 的 。 广 义 的 线性 模型 ( 如 Mahout 中 基于 SGD 的 模型 ) 可 以 从 这 项 技术 中 获 益 ， 如 果 
不 这 样 做 的 话 , 它们 就 只 能 关注 预测 变量 和 类 别 之 间 的 线性 关系 。 大 部 分 基于 树 的 模型 不 会 注意 
到 这 种 对 连续 变量 变形 带 来 的 差异 。 

下 面 给 出 了 对 mrainingExample 对 象 进行 查询 来 获取 行 数 的 例子 ， 之 后 行 号 采用 三 种 不 同 
的 方式 编码 : 


FeatureValueEncoder lineEncoder = 
new ConstantValueEncoder ("lines") ; 
FeatureValueEncoder logLineEncoder = 注意 名 称 变化 
new ConstantValueEncoder("log(lines)"); FEAR = 
FeatureValueEncoder lineSquaredEncoder = 
new ConstantValueEncoder ("lines*2") ; 


for (TrainingExample example : trainingData) { 
Vector v = new RandomAccessSparseVector (50000); 


double lines = example.getLines(); 
lineEncoder.addToVector((byte[]) null, lines, v); 
logLineEncoder.addToVector((byte[]) null, Math.log(lines), v); 
lineSquaredEncoder.addToVector((byte[]) null, lines * lines, v); 


} 

通过 对 行 数 用 多 种 方式 转换 变形 ,可 以 得 到 一 个 很 容易 具有 多 类 推理 能 力 的 模型 。 例 如 , 通 
过 包含 原始 价格 和 出 售 价格 的 对 数值 , 模型 可 以 访问 商品 的 折扣 率 。 而 如 果 不 转换 原始 价格 和 出 
售 价格 , 能够 得 到 的 只 是 绝对 的 折扣 金额 而 不 是 原始 价格 的 某 个 比值 。 到 底 哪 种 变形 更 好 事先 很 
难说 ， 因 此 让 学 习 算 法 自己 选择 可 能 是 一 个 非常 好 的 思路 。 
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将 变量 的 多 个 变形 加 入 到 朴素 贝 叶 斯 模型 中 没有 意义 , 这 是 因为 朴素 贝 叶 斯 只 接受 类 别 型 或 
文本 型 输入 。 这 些 变量 已 经 编码 成 二 值 数字 ， 而 对 二 值 变 量 进行 变形 基本 没有 任何 意义 。 

交互 变量 ( interaction variable) 是 其 他 变量 的 组 合 ， 它 们 是 分 类 器 的 另 一 力量 源泉 。 例 如 ， 
在 一 个 市 场 应 用 中 ,将 性 别 和 品牌 组 合成 交互 变量 可 能 效果 会 很 好 。 如果 没 有 这 个 交互 变量 的 话 ， 
模型 可 能 会 推导 出 女人 比 男 人 对 赠品 更 有 或 更 没有 反应 ， 或 者 某 个 具体 品牌 更 受 或 者 更 不 受 欢 
迎 。 然 而 ， 当 使 用 性 别 和 品牌 组 合 在 一 起 的 交互 变量 时 , 模型 可 以 推出 某 个 特定 品牌 更 受 或 更 不 
受 男 人 或 女人 欢迎 。 由 于 不 同 厂商 会 对 其 品牌 进行 专业 化 处 理 来 吸引 不 同 的 细 分 市 场 , 所 以 上 述 
变量 十 分 有 效 , 这 一 点 并 不 意外 。 通 过 散 列 特征 表示 , 交互 变量 可 以 使 用 类 似 如 下 的 代码 来 加 入 : 


LuceneTextValueEncoder authorEnc = new LuceneTextValueEncoder ("author"); 
LuceneTextValueEncoder subjectEnc = new LuceneTextValueEncoder ("subject"); 
FeatureVectorEncoder authorPlusSubjectEnc = 

new InteractionValueEncoder("author_subject", author, subject); 


for (TrainingExample example : trainingData) { 
Vector v = new RandomAccessSparseVector (50000); 
String author = example.getAuthor(); 
String subject = example.getSubject(); 
authorEnc.addToVector(author, 1, v); 
subjectEnc.addToVector(subject, 1, v); 
authorPlusSubjectEnc.addToVector(author, subject, 1, v); 
ses 
这 里 , 通过 引用 作者 编码 器 authorEnc 和 主题 文本 编码 器 subjectEnc 建 立 了 一 个 交互 变量 编 
码 器 authorPlusSubjectEnc。 包 含 作 者 名 和 主题 行 的 字符 串通 过 作者 、 主 题 以 及 它们 的 组 合 变 
量 来 编码 。 交 互 变量 代表 的 不 止 是 作者 和 主题 , 还 包括 它们 相关 联 的 事实 , 这 区 别 于 另 一 个 作者 使 
用 本 主题 或 者 该 作者 讨论 一 个 另外 的 主题 。 这 人 允许 分 类 器 同时 基于 作者 和 主题 来 进行 差异 判别 。 如 
果 不 同 用 户 使 用 同一 文本 来 表示 不 同意 义 ， 那 么 如 果 不 使 用 上 述 交 互 变量 就 无 法 学 习 到 正确 含义 。 
然而 利用 交互 变量 , 模型 就 可 以 将 不 同 的 意义 归功 于 几乎 相同 的 词语 , 这 取决 于 它们 的 上 下 文 。 此 
外 ， 由 于 同时 包含 了 独立 的 作者 和 主题 的 编码 器 ， 模 型 也 能 不 依赖 于 作者 学 到 主题 行 的 意义 。 
交互 变量 十 分 强大 , 但 是 它们 会 显著 增加 分 类 器 的 复杂 度 , 使 得 特征 编码 和 学 习 过 程 显著 变 
慢 。 由 于 每 个 训练 样本 的 特征 数目 都 显著 增加 ， 这 种 做 法 也 有 可 能 导致 精度 的 下 降 。 
另 一 种 对 已 知 变量 进行 变形 的 做 法 是 对 一 部 分 训练 数据 聚 类 ， 比 如 使 用 类 似 k-means 算 法 对 
多 个 预测 变量 进行 聚 类 。 这 种 聚 类 会 导致 一 个 新 的 预测 变量 ， 即 对 每 一 部 分 数据 而 言 ， 它 的 复 是 
一 个 类 别 型 特征 。 
类 似 地 , 我 们 可 以 构建 一 个 分 类 器 模型 , 然后 将 该 分 类 器 的 输出 结果 用 作 男 一 模型 的 预测 变 
量 。 其 思路 是 , 第 一 个 模型 会 学 习 问 题 的 大 致 轮廓 ， 而 级 联 的 第 二 个 模型 可 以 学 习 如 何 纠 正 第 一 
个 模型 的 错误 。 下 面 给 出 了 上 述 做 法 的 一 个 代码 示例 : 
AbstractVectorClassifier subModel = 
ModelSerializer.readBinary (new FileReader("sub-model.model"), 


OnlineLogisticRegression.class) ; 
ConstantValueEncoder subModelEnc = new ConstantValueEncoder ("sub"); 
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for (TrainingExample example : trainingData) { 
Vector vl = new RandomAccessSparseVector (50000); 
. encode features for subModel ... 
Vector v2 = new RandomAccessSparseVector (50000); 
double subScore = subModel.classifyScalar(v1); 
subModelEnc((byte[]) null, subScore, v2); 
. encode other features ... 
. train model ... 
} ; 


这 里 我 们 假设 第 一 个 模型 已 经 训练 好 并 放 在 文件 submodelmodel 中 。 于 是 ， 在 训练 第 二 个 模 
型 时 , 我 们 构建 一 个 特征 向 量 作为 第 一 个 模型 的 输入 , 然后 运行 第 一 个 模型 得 到 一 个 得 分 , 该 得 
分 被 用 作 第 二 个 模型 的 特征 。 


15.4.2 分 类 器 调 优 


除了 改变 提供 给 分 类 器 学 习 算 法 的 数据 之 外 , 也 可 以 对 算法 本 身 或 者 算法 的 定义 参数 进行 修 
。 尝 试 这些 方 法 的 好 处 在 于 提供 了 多 种 方法 通过 有 指导 的 反复 试验 来 提高 系统 性 能 。 

1. 尝试 其 他 算法 

尝试 使 用 不 同 的 分 类 器 算法 来 看 看 到 底 哪个 结果 最 好 , 这 一 点 十 分 重要 。Mahout 支 持 朴 素 贝 
叶 斯 、 补 充 朴 素 贝 叶 斯 和 SGD 算 法 ， 除 此 之 外 , 还 有 随机 森林 和 支持 向 量 机 (SVM ) 的 实验 版 本 
可 用 。 

除了 修改 整个 分 类 模型 之 外 ,还 可 以 在 保持 模型 的 同时 修改 学 习 算法 。 具 体 地 ,基于 SGD 的 
分 类 器 可 以 通过 使 用 crossFoldLearner 交 叉 测 试 或 者 能 够 自 动 调节 很 多 学 习 参 数 的 
AdaptiveLogisticRegression 来 运行 低层 学 习 算 法 。 也 可 以 从 对 数 似 然 、AUC 或 者 这 些 指 标 
的 混合 指标 中 选择 学 习 算 法 的 优化 目标 。 

我 们 可 以 基于 性 能 、 训 练 时 间 和 分 类 速度 对 不 同 的 算法 进行 比较 。 例 如 ， 可 以 使 用 朴素 贝 叶 
斯 两 个 版 本 的 算法 和 adqaptiveLogisticRegression。 如 果 精 度 好 的 模型 不 止 一 个 的 话 ， 就 基 
于 它们 与 系统 其 余部 分 的 融合 好 坏 来 选择 其 中 一 个 算法 。 

2. 调整 学 习 算 法 

当 具 体 使 用 SGD 的 低层 学 习 算 法 时 , 有 很 多 开关 选项 可 以 打开 或 关闭 来 获得 不 同 的 结果 。 当 
构建 AdaptiveLogisticRegression、 CrossFoldLearner 或 者 onlineLogisticRegression 


时 ， 大 部 分 参数 的 配置 方法 都 很 类 似 。 这 些 方法 概括 在 表 15-5 中 。 


表 15-5 SGD 学 习 类 中 的 配置 方法 
在 线 Logistic 回 归 ”交叉 折叠 学 习 器 。 自 适 应 Logistic 回 归 


算法 参数 配置 方法 Conline logistic (CrossFold (adaptive logistic 解 B 
regression ) Learner) regression) 
prior Constructor Yes Yes Yes 设 定 正则 化 函数 来 鼓 
ERAS 
numFeatures Constructor Yes Yes Yes 指定 特征 向 量 的 大 小 


numCategories Constructor Yes Yes Yes 指定 目标 类 别 的 数目 


266 第 15 章 分 类 器 评估 及 调 优 


( 续 ) 
在 线 Logistic 回 归 交叉 折价 学 习 器 。 自 适 应 Logistic 回 归 
算法 参数 配置 方法 (online logistic (CrossFold (adaptive logistic R B 
regression ) Learner) regression) 

alpha Setter Yes Yes 设 定 学 习 率 计划 
decayExponent Setter Yes Yes 设 定 学 习 率 计划 
lambda Setter Yes Yes 控制 正则 化 
learningRate Setter Yes Yes 设 定 学 习 率 计划 
stepOffset Setter Yes Yes 设 定 学 习 率 计划 


在 所 有 的 SGD 类 中 ， 先 验 ( prior )、 特 征 数目 及 目标 类 别 数目 都 在 构造 函数 中 设置 。 
AdaptiveLogisticRegression 类 通过 在 不 同 设置 下 并 行 运行 并 比较 多 个 crossFoldLearner 
的 结果 来 控制 学 习 率 。 这 意味 着 AdaptiveLogisticRegression 中 唯一 需要 另外 设置 的 参数 用 
于 控制 学 习 率 修改 频率 和 并 行 CrossFoldLearners 测 试 数目 。 对 于 crossFoldLearner 和 
OnlineLogisticRegression 而 言 ， 需 要 指定 学 习 率 和 学 习 率 随时 间 衰 减 的 方式 。 这 可 以 通过 
使 用 编译 需 类 型 的 方法 来 实现 ， 比 如 : 

lr = new CrossFoldLearner(targetCategories, numFeatures, new L1()) 

. lambda (currentLambda) 
. learningRate(initialLearningRate) 


.decayExponent (0.5) 
.stepOffset (2000) ; 


通常 , decayExponent 和 stepoffset 用 于 控制 初始 学 习 率 随时 间 下 降 的 方式 , 而 设置 alpha 
值 则 要 少见 得 多 。 

除了 上 述 设置 之 外 , CrossFoldLearner 还 人 允许 设置 其 内 部 所 使 用 的 交叉 检验 次 数 。 在 差 不 
多 所 有 情况 下 默认 值 5 都 是 可 以 接受 的 。 使 用 比如 2 或 3 这 种 更 小 的 值 ， 会 将 训练 中 的 数据 数目 降 
低 到 大 部 分 应 用 可 以 接受 的 次 数 之 下 。 而 将 该 值 设 置 得 比 5 大 会 导致 更 大 的 计算 开销 ， 因 为 此 时 
对 每 次 交叉 都 需要 一 个 独立 的 学 习 器 。 

一 个 最 简单 的 调整 所 有 上 述 参 数 的 办 法 是 仅仅 在 默认 设置 下 使 用 AdaptiveLogistic 
Regression, 但 是 这 需要 花费 相当 多 的 计算 开销 ， 这 是 因为 AdaptiveLogisticRegression 
内 部 使 用 了 20 个 crossFoldLearners 构 成 的 进化 池 ， 每 个 crossFoldLearners 维 护 5 个 
OnlineLogisticRegression 对 象 。 这 意味 着 必须 花费 一 定 开 销 在 同一 时 间 运 行 100 个 学 习 算 法 。 

尽管 如 此 , 在 实际 当中 上 述 做 法 却 并 没有 那么 严重 , 这 是 因为 从 磁盘 读 取 训练 样本 并 将 它们 
转换 成 特征 向 量 就 与 运行 100 个 学 习 算法 的 代价 相当 。 另 外 ， 在 实际 情况 下 ， 一 个 学 习 算法 将 至 
少 在 数 十 个 或 者 成 百 上 千 种 参数 配置 下 运行 。 而 AdaaptiveLogisticRegression 却 能 自动 实现 
这 一 点 。 这 样 做 的 一 个 副作用 是 ,数据 必须 只 能 做 一 次 转换 。 不 好 的 选项 早期 就 会 被 去 掉 ， 因 此 
不 会 有 计算 开销 浪费 在 它们 身上 。 


15.5 pa 


本 章 当 中 我 们 学 习 了 Mahout 中 计算 分 类 质量 指标 的 主要 API 以 及 如 何 使 用 这 些 指标 的 基本 
知识 。 我 们 还 学 习 了 常见 的 漏洞 如 何 影响 这 些 指 标 以 及 如 何 发 现 并 对 常见 问题 进行 纠正 。 

正如 本 章 例子 指出 的 那样 ,分 类 器 的 问题 可 能 十 分 隐蔽 8。 不 像 大 部 分 计算 机 程序 一 样 ， 即 使 
严重 的 错误 也 有 可 能 不 会 导致 完全 的 崩溃 , 这 是 因为 学 习 算法 常常 学 习 如 何 从 部 分 崩溃 中 进行 恢 
复 。 这 种 情况 既是 好 消息 也 是 坏 消 息 ， 这 使 得 细致 的 分 类 质量 检测 十 分 重要 。 

评估 并 不 只 是 构建 和 调整 高 性 能 分 类 器 的 一 个 迭代 过 程 , 它 也 是 在 产品 上 线 之 后 的 一 个 持续 
的 重要 步骤 。 不 断 的 性 能 评估 对 于 性 能 的 维持 相当 重要 。 外 部 条 件 的 变化 可 能 导致 模型 的 可 用 性 
降低 , 或 者 数据 集 上 的 处 理 错 误会 降低 模型 的 有 效 性 。 任 何 情况 下 ,生产 中 的 持续 评估 对 于 意识 
到 是 否 需要 重新 调整 或 者 是 否 重新 训练 模型 或 者 选择 新 方法 都 十 分 重要 。 而 这 些 方面 会 在 下 一 章 
的 分 类 器 部 署 中 进行 探讨 。 


KBAR 

口 指定 分 类 器 的 速度 和 规模 需求 
口 构建 大 规模 分 类 器 

口 交付 一 个 高 速 分 类 器 

口 构建 并 部 署 分 类 服务 器 


本 章 主要 考察 在 将 分 类 系统 变 成 实际 产品 时 所 面 对 的 问题 。 前 面 的 章节 中 , 我 们 讨论 了 很 多 
问题 ， 包 括 面 对 大 规模 数据 集 时 使 用 Mahout 分 类 器 的 优点 、 这 些 分 类 器 如 何 训练 、 它 们 内 部 是 如 
何 工 作 的 以 及 如 何 对 这 些 分 类 器 进行 评估 等 ,但 是 这 些 讨论 都 有 意 省 略 了 将 分 类 器 做 成 产品 的 许多 
实际 问题 。 本 章 将 在 解释 如 何 部 署 一 个 高 速 分 类 器 时 考察 这 些 实际 问题 。 我 们 会 介绍 优化 特征 提取 
和 向 量 表示 的 技巧 , 会 描述 如 何在 负载 和 速度 之 间 折 中 , 还 会 解释 如 何 构建 超大 规模 系统 的 训练 流 
水 线 。 最 后 ， 我 们 会 提供 一 个 基于 Thrif 的 服务 器 的 部 署 案例 ,该 服务 器 允许 全 功能 负载 均衡 分 类 。 

如 果 打 算 在 产品 中 使 用 Mahout, 那么 很 有 可 能 下 面 某 些 或 全 部 条 件 成 立 : 拥有 极 大 规模 训练 
数据 ， 要 有 高 吞吐 率 ， 需 要 快速 响应 ， 或 者 需要 和 现 有 大 型 系统 集成 。 上 述 条 件 也 意味 着 在 建立 
系统 时 需要 具体 考虑 的 架构 和 设计 因素 。 大 数据 集 需 要 高 效 的 读 取 和 组 织 , 高 吞吐 率 需 要 可 扩展 
且 优 化 的 代码 。 集 成 到 大 型 系统 需要 一 个 简单 清晰 的 作为 网 络 服务 的 API。Mahout 提 供 了 强 有 力 的 
办 法 来 处 理 大 数据 系统 ， 但 是 也 有 些 办 法 来 简化 或 重 述 问题 以 使 像 Mahout 一 样 的 工具 更 加 强大 。 

下 一 节 中 ， 我 们 将 概述 如 何 设计 、 构 建 和 部 署 一 个 实际 的 大 规模 分 类 器 。 


16.1 巨型 分 类 系统 的 部 署 过 程 


当 部 署 基于 Mahout 的 分 类 器 系统 时 ,有 一 些 标准 步骤 可 以 用 于 保证 部 署 的 成 功 性 。 其 关键 在 
于 事先 预测 可 能 出 现 的 问题 并 从 中 选择 那些 需要 集中 精力 避免 的 问题 。 对 于 这 些 问 题 的 具体 处 理 
策略 将 在 16.2 至 16.4 节 中 讨论 ， 本 节 主 要 介绍 部 署 巨型 系统 的 过 程 。 


注意 为 理解 Mahout 对 你 的 分 类 项 目 带 来 的 潜在 价值 ， 要 了 解 你 的 系统 的 各 个 方面 ， 包 括 系 统 是 
否 特别 大 ， 或 者 是 否 要 求 系统 运行 特别 快 。 这 些 关 键 点 将 确定 Mahout 是 否 正 确 的 解决 方案 。 
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整个 部 署 流程 可 以 分 成 如 下 几 步 : 

Ch 理解 问题 ; 

口 根据 需要 优化 特征 提取 过 程 ; 

口 根据 需要 优化 向 量 表 示 ; 

口 部 署 可 扩展 的 分 类 器 服务 。 

上 面 的 每 一 步 都 在 本 节 中 描述 然后 应 用 到 随后 的 案例 中 。 


16.1.1 理解 问题 


第 一 步 要 确定 问题 的 真正 规模 以 及 在 训练 和 生产 环境 中 所 需要 的 分 类 速度 。 训 练 数据 的 规模 
会 决定 特征 提取 的 构建 过 程 ， 比 如 到 底 是 采用 诸如 关系 数据 库 的 传统 工具 来 构建 这 个 模块 , 还 是 
使 用 类 似 Apache Hadoop 的 工具 来 构建 一 个 高 扩展 性 的 特征 提取 模块 。 有 关 规 模 和 速度 的 需求 细 
节 将 在 16.2 节 讨论 。 

训练 所 允许 的 时 间 将 确定 是 否 能 够 使 用 一 个 像 SGD 一 样 的 串 行 训练 分 类 器 。 具 体 原 因 如 下 : 
如 果 使 用 并 行 算法 而 训练 时 间 的 要 求 又 有 限 ， 那 么 当 处 理 更 大 规模 数据 系统 速度 不 够 快 的 情况 
F, 通过 增加 机 器 就 能 满足 需求 。 但 是 ， 如 果 使 用 串 行 算法 ， 只 有 对 单 台 计算 机 固定 时 间 段 的 安 
排 ,因此 只 能 通过 额外 处 理 加 速 解 析 数 据 和 编码 过 程 来 达到 要 求 。 

生产 环境 下 分 类 器 的 吞吐 率 和 延迟 性 需求 将 确定 是 否 需 要 一 个 分 布 式 的 分 类 器 , 以 及 是 否 需 
要 进行 大 量 的 预计 算 来 最 大 化 分 类 器 的 速度 。 对 于 一 定 延迟 开销 下 的 极端 吞吐 率 需 求 , 需要 确定 
的 事情 还 包括 是 否 需 要 进行 批量 分 类 。 


16.1.2 ”根据 需要 优化 特征 提取 过 程 


当 样 本 规模 高 于 数 千 万 时 , 采用 诸如 MapReduce 的 这 种 可 扩展 技术 来 进行 特征 提取 就 变 得 越 
发 重要 。 

如 果 规 模 很 小 不 到 几 百 万 , 那么 任意 技术 都 可 行 , 那些 诸如 关系 数据 库 之 类 的 久 经 考验 的 数 
据 管 理 和 提取 技术 都 能 处 理 得 非常 好 。 

当 规 模 更 大 时 , 就 可 能 必须 要 采用 类 似 Hadoop 的 工具 来 构建 并 行 的 提取 架构 , 或 者 交付 给 像 
Aster Data、Vertica 或 Greenplum 之 类 的 商业 支持 系统 。 如 果 使 用 Hadoop 的 话 ， 那 么 还 需要 确定 特 
征 提 取代 码 的 具体 实现 方案 。 这 些 可 选 的 方案 包括 Apache Hive( http://hive.apache.org )、Apache Pig 
( http://pig.apache.org )、Casading ( http://www.cascading.org ) 甚至 Java 写 的 MapReduce 原 始 程序 。 

这 里 的 一 个 关键 点 是 任意 下 采样 过 程 都 要 作为 特征 提取 而 不 是 向 量 表示 的 一 部 分 以 保证 取 
样 过 程 可 以 并 行 处 理 。 实 际 针对 大 数据 系统 的 特征 提取 相关 问题 的 细节 将 在 16.3 节 介绍 。 


16.1.3 ”根据 需要 优化 向 量 编码 


如 果 对 于 每 个 分 类 器 在 经 特征 提取 和 下 采样 之 后 不 到 100 万 样本 ， 就 可 以 考虑 一 个 诸如 SGD 
的 串 行 模型 。 如 果 这 个 数字 超过 500 万 ， 那 么 就 要 考虑 对 数据 解析 和 特征 向 量化 代码 仔细 优化 。 
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这 种 需求 可 能 涉及 不 带 字符 串 转换 的 分 析 过 程 、 多 线程 的 输入 转换 以 及 缓存 策略 等 , 这 些 方法 可 
以 以 最 快 的 速度 ， 给 学 习 算 法 提供 数据 。 

如 果 训 练 样本 数 超过 1 个 亿 ， 可 以 考虑 直接 使 用 带 预定 学 习 率 参数 的 crossFoldLearner 
类 。 如 果 问 题 相对 稳定 的 话 ， 可 能 可 以 采用 某 种 自 适应 策略 来 学 习 学 习 率 然后 选择 其 中 较 好 的 
结果 。 使 用 AdaptiveLogisticRegression 来 实现 上 述 策略 的 好 处 在 于 可 以 在 学 习 中 少 用 20 
倍 的 数值 运算 ， 不 足 之 处 在 于 加 速 比 并 没有 上 听 起 来 那么 大 ， 并 且 整 条 学 习 链 需要 更 多 的 维护 
工作 。 


16.1.4 ”部 署 可 扩展 的 分 类 器 服务 


在 大 部 分 应 用 中 , 将 分 类 器 分 隔 成 一 个 独立 的 服务 来 处 理 数 据 分 类 请 求 比较 方便 。 这 些 服务 
是 典型 的 基于 网 络 RPC 协 议 的 常规 服务 , 这 些 协议 包括 Apache Thrift 或 基于 REST 的 HTTP 等 。16.4 
节 给 出 了 一 个 基于 Thift 构 建 的 分 类 服务 的 例子 。 这 种 做 法 特别 适合 于 需要 对 每 个 输入 样 例 执 行 许 
多 分 类 操作 的 情况 ， 比 如 当 对 许多 对 象 进行 测试 以 得 到 期 望 值 的 情况 就 是 如 此 。 

在 有 些 情况 下 , 网络 往返 的 延迟 开销 无 法 接受 ,此 时 分 类 器 就 必须 作为 一 个 直接 调用 库 来 集 
成 。 当 非常 细 粒 度 的 需求 需要 在 极端 速率 下 处 理 时 ， 上 述 情 况 就 会 发 生 。 由 于 现代 网 络 服务 架构 
能 够 支持 每 秒 钟 超过 50 000 的 吞吐 率 ， 因 此 上 述 情况 相对 比较 罕见 。 


16.2 ”确定 规模 和 速度 需求 


构建 分 类 器 第 一 步 就 是 要 确定 规模 因素 , 包括 训练 数据 的 数量 和 系统 要 达到 的 吞吐 率 。 从 多 
个 维度 了 解 问题 的 规模 可 以 指导 设计 中 的 一 些 决策 ， 这 些 决策 会 刻画 即将 构建 的 系统 的 各 个 
方面 。 


16.2.1 多 大 才 算 大 


如 果 考 虑 使 用 Mahout 来 构建 分 类 系统 , 首先 问 一 下 自己 有 关系 统 的 几 个 如 下 问题 , 然后 根据 
问题 的 答案 来 确定 系统 的 哪些 部 分 需要 采用 大 数据 技术 ， 而 哪些 部 分 只 需要 采用 传统 技术 处 理 。 

口 有 多 少 训练 样本 ? 

O 分 类 的 批 处 理 规模 多 大 ? 

O 分 类 批 处 理 要 求 的 响应 时 间 多 少 ? 

口 每 秒 钟 必须 要 处 理 的 分 类 次 数 总 共有 多 少 ? 

口 系统 期 望 的 最 大 负载 是 多 少 ? 


最 大 负载 的 估计 

为 估计 最 大 负载 ， 可 以 简单 地 假设 每 天 有 20 000 秒 而 不 是 真正 的 86 400 秒 ， 这 样 处 理 起 
来 比较 方便 。 这 里 使 用 一 个 缩水 的 仅 由 20 000 秒 构成 的 一 天 ， 可 以 在 合理 的 事务 突 发 性 水 平 
上 从 平均 值 转换 成 峰值 ， 从 而 完成 峰值 的 估算 。 
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对 长 期 的 平均 事务 率 进 行 估计 通常 十 分 容易 ， 但 是 要 设计 系统 时 必须 知道 其 所 支持 的 峰 
值 。 利 用 上 述 概算 法 则 ， 可 以 使 用 一 个 称 为 费 米 估计 (Fermi estimate ) 的 方法 来 估计 系统 每 秒 
钟 必 须要 处 理 的 事务 数目 。 因 里 克 。 费 米 (Enrico Femi) 是 著名 的 物理 学 家 ， 特 别 以 擅长 类 
似 上 述 的 估计 而 闻名 于 世 ， 于 是 他 的 名 字 和 这 些 估算 关联 在 一 起 。 


上 述 值 并 不 需要 精确 地 估计 。 通常 而 言 ， 只 要 估计 的 值 与 真实 值 在 同一 数量 级 内 就 是 以 用 于 
初始 系统 的 规模 和 架构 设计 。 当 转向 产品 时 ， 将 会 最 终 重新 调整 上 述 估计 值 。 

一 旦 你 知道 会 使 用 的 训练 样本 数目 , 就 可 以 考虑 Mahout 是 否 适合 你 的 项 目 , 并 在 适合 的 情况 
下 选择 好 的 算法 。 

1. 训练 样本 数 的 含义 

通常 来 说 ， 当 训练 样本 一 旦 超过 100 000 时 ， Mahout 就 会 变 得 有 意思 起 来 。 但 是 能 够 处 理 的 
数据 规模 并 没有 下 界 。 当 有 上 百 万 或 更 多 训练 样本 时 , 大 部 分 其 他 的 数据 挖掘 方案 无 法 完成 训练 
过 程 ， 而 当 训 练 数据 规模 达到 上 亿 或 者 上 十 亿 时 ， 就 很 少 有 系统 能 够 构建 可 用 的 模型 。 训 练 样本 
的 数目 以 及 模型 的 类 型 是 训练 时 间 的 主要 决定 因素 。 

对 于 一 个 像 Mahout 一 样 的 可 扩展 系统 来 说 ,可 以 通过 小 规模 数据 上 的 多 次 测试 对 期 望 的 训练 
时 间 进 行 可 靠 推 斯 ,对 于 像 SGD 一 样 的 串 行 学 习 算 法 来 说 ,学 习 时 间 应 该 与 输入 规模 呈 线 性 关系 。 
实际 上 , 对 于 很 多 模型 来 说 , 会 在 远 远 没有 处 理 完 所 有 输入 之 前 就 会 收敛 到 一 个 可 靠 的 错误 水 平 
上 ， 因 此 训练 时 间 和 输入 规模 呈 亚 线性 关系 。 

如 果 使 用 并 行 学 习 算 法 ,比如 朴素 贝 叶 斯 的 并 行 版 本 , 那么 学 习 的 时 间 大 致 与 输入 规模 除 以 
学 习 用 MapReduce 节 点 数 之 后 的 结果 呈 线 性 关系 。 由 于 朴素 贝 叶 斯 的 学 习 过 程 编 写成 一 个 批 处 理 
系统 ， 即 所 有 输入 会 经 多 步 才能 处 理 ， 所 以 该 过 程 不 能 很 早 中 止 。 这 也 意味 着 即使 部 分 数据 虽然 
足以 生成 一 个 可 用 的 模型 ， 而 这 里 必须 要 处 理 所 有 的 训练 数据 才能 得 到 一 个 可 用 的 模型 。 

2. 分 类 批 处 理 的 规模 

一 个 常见 的 情况 下 , 对 于 单个 请 求 需要 执行 一 系列 分 类 过 程 。 这 种 需求 常常 发 生 于 多 个 不 同 
对 象 需要 评估 的 情况 下 。 比 如 ,在 一 个 广告 投放 系统 中 ,通常 有 数 千 个 广告 ,每 个 广告 都 有 模型 
需要 评估 来 确定 哪个 广告 出 现在 某 个 网 页 中 。 这 里 的 批 处 理 规模 就 是 需要 评估 的 广告 数目 。 有些 
应 用 的 批 处 理 规模 十 分 大 ， 超 过 100 000 个 模型 。 

男 一 个 极端 情况 是 , 某 个 欺诈 检测 服务 器 可 能 只 有 一 个 模型 要 进行 值 计 算 , 由 于 单个 事务 是 
否 存 在 欺诈 只 涉及 一 个 决定 , 即 存 在 欺诈 与 否 。 这 种 情况 和 上 述 广告 选择 服务 器 存在 很 大 的 差异 ， 
后 者 当中 对 于 多 个 可 能 的 广告 的 每 一 个 都 需要 对 点 击 模型 进行 计算 。 

3. 最 长 响应 时 间 和 所 需 吞 吐 率 

最 长 响应 时 间 确 定单 个 分 类 批 处 理 完成 所 需要 的 时 间 。 该 时 间 也 确定 了 所 需 分 类 速率 的 下 
界 。 当 然 ， 这 个 值 只 是 一 个 下 界 ， 这 是 因为 如 果 每 秒 钟 处 理 的 事务 数目 足够 的 话 ， 就 有 可 能 支持 
更 高 的 速率 。 

通常 来 说 , 在 较 小 的 分 类 批 处 理 规 模 下 很 容易 就 可 以 构建 每 秒 1000 次 分 类 的 系统 , 这 是 因为 
这 个 处 理 速度 相对 于 当前 计算 机 的 处 理 能 力 而 言 要 小 一 些 。 实 际 上 , 本 章 后 面 会 介绍 的 一 个 基于 
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Thrift 的 服务 器 很 容易 就 能 达到 这 个 需求 。 直 到 批 处 理 的 规模 超过 100 到 1000 时 ， 该 服务 器 都 能 够 
基本 支持 上 述 事务 率 ， 这 是 因为 此 时 大 部 分 的 开销 都 是 网 络 开销 。 如 果 批 处 理 规模 达到 10 000 或 
更 多 ， 响 应 时 间 将 开始 攀升 。 如 果 批 处 理 规 模 更 大 并 且 要 求 亚 秒 级 响应 时 间 ， 那么 可 能 要 对 分 
类 系统 横向 扩展 或 者 重 构 。 


16.2.2 ”在 规模 和 速度 之 间 折 中 


使 用 Mahout 的 一 个 好 处 是 ， 相 对 于 非 可 扩展 系统 来 说 ，Mahout 可 以 更 宽松 地 支持 在 数据 规 
模 和 处 理 速 度 之 间 折 中 。 也 就 是 说 ， 在 系统 的 多 个 方面 之 间 通 常 需要 某 种 程度 的 折 中 ， 因此 需 
要 考虑 如 何 对 它们 进行 折 中 。 为 达到 此 目的 , 需要 牢记 的 是 , 你 的 系统 的 某 个 方面 的 需求 可 能 与 
其 他 系统 不 太一 样 。 在 同一 系统 中 使 用 不 同 的 分 类 器 来 完成 不 同 目标 是 一 件 很 常见 的 事情 。 

一 旦 系统 的 各 个 方面 都 考虑 得 比较 清楚 ,就 可 以 开始 规划 部 署 , 并 考虑 哪些 方面 需要 特别 注 
意 ， 哪 些 方面 需要 快速 实现 。 下 面 的 章节 给 出 了 部 署 过 程 的 每 一 步 所 需要 重点 考虑 的 事项 。 一 般 
来 说 ， 这 些 注意 事项 要 不 在 分 类 训练 过 程 中 应 用 ， 要 不 在 分 类 部 署 之 后 应 用 。 

1. 训练 

为 建立 可 分 类 数据 所 需要 运行 的 大 规模 联结 运算 常常 占据 了 训练 的 大 部 分 时 间 。 用 户 可 以 使 
用 标准 的 Hadoop 工 具 来 实现 这 些 运算 ， 但 是 必须 注意 要 使 得 联结 运算 高 效 运 行 。 

对 负 例 样本 进行 下 采样 ( downsampling ) 会 大 大 降低 训练 样本 的 规模 。 在 欺诈 检测 和 点 击 优 
化 中 , 非 兴趣 训练 样本 数目 往往 大 大 超过 兴趣 样本 ( 欺诈 或 点 击 ) 数目 。 保留 所 有 的 兴趣 样本 对 
于 精确 学 习 至 关 重 要 , 但 是 只 要 仍然 保持 非 兴趣 样本 比 兴 趣 样本 足够 多 , 就 可 以 随机 丢掉 一 些 非 
兴趣 样本 。 这 种 样本 的 丢弃 过 程 就 称 为 下 采样 ， 该 方法 常常 作用 联结 过 程 的 一 部 分 进行 处 理 。 

在 获得 训练 样本 之 后 , 特征 的 表示 过 程 常常 占据 了 训练 的 大 部 分 时 间 。 训练 数据 的 下 采样 也 
降低 了 特征 表示 的 时 间 ， 但 为 使 表示 过 程 更 加 高 效 仍 然 有 很 多 事情 要 做 。 

至 始 至 终 我 们 都 要 牢记 这 一 点 , 即 建立 一 个 好 的 分 类 模型 需要 多 遍 的 反复 调 优 过 程 , 必须 确保 
训练 流水 线 能 够 使 得 上 述 迭 代 过 程 高 效 进行 。16.3 节 介绍 了 训练 流水 线 中 的 架构 和 策略 性 问题 。 

2. 分 类 

当 准 备 将 分 类 器 集成 到 系统 时 , 总 体 的 分 类 吞吐 率 需 求 将 确定 如 何 对 分 类 器 进行 优化 。 大 部 
分 Mahout 分 类 器 都 足够 快 , 因此 只 有 在 极端 系统 中 才 需 要 考虑 上 述 问题 。 但 是 需要 检查 此 时 是 否 
处 于 极端 系统 当中 。 如 果 不 在 , 那么 就 可 以 直接 采用 常规 方案 处 理 ， 而 如 果 在 极端 系统 当中 ,就 
必须 要 安排 时 间 来 拓展 通常 的 性 能 限制 。 

如 果 每 次 事务 当中 只 需要 做 少量 的 分 类 处 理 , 并 且 只 有 一 般 的 延迟 时 间 和 吞吐 率 需 求 , 利用 
每 个 事务 单线 程 的 传统 服务 设计 就 足以 达到 要 求 。 基 于 REST 的 服务 或 许可 以 接受 ， 或 者 采用 性 
能 稍微 高 一 点 点 的 网 络 服 务 技术 ， 比 如 Thrift、Avro 或 者 协议 缓冲 区 (Protocol Buffer ) 技术 。16.5 
节 给 出 了 如 何 构 建 这 样 的 一 个 服务 的 例子 。 

如 果 每 次 事务 当中 所 需要 的 分 类 处 理 次 数 达 到 中 等 级 别 ( 数 十 到 数 千 )， 并 且 需 要 更 高 的 延 
迟 性 和 吞吐 率 要 求 , 那么 需要 采用 一 个 基于 多 模型 或 多 输入 的 多 线程 过 程 来 对 基本 的 分 类 服务 进 
行 增强 处 理 ， 但 是 此 时 在 其 他 方面 基本 的 设计 仍然 足以 满足 需求 。 
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当 磁 到 十 分 极端 的 批 处 理 规模 需求 需要 在 每 个 服务 事务 中 处 理 大 量 的 模型 计算 时 , 就 必须 深 
入 到 模型 评估 的 核心 代码 中 来 将 模型 评估 分 成 多 个 部 分 有 些 部 分 可 以 提前 评估 , 而 有 些 部 分 必 
须要 在 分 类 时 评估 。 这 种 优化 过 程 非常 针对 于 特定 的 应 用 系统 , 其 内 容 远 远 超过 本 书 的 覆盖 范围 。 
这 种 情况 下 使 用 Mahout 的 一 个 实现 案例 在 第 17 章 给 出 。 
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分 类 系统 需要 训练 数据 ,而 可 扩展 的 分 类 系统 可 以 处 理 非常 大 规模 的 数据 。 为 了 给 这 些 系 统 
提供 数据 ， 必 须要 能 处 理 更 大 规模 的 数据 ， 这 样 才能 从 中 选 出 一 些 来 训练 分 类 器 。 

为 了 处 理 这 么 大 规模 的 数据 , 需要 牢记 下 面 几 件 事 。 首 先 也 是 最 重要 的 事情 是 保持 技术 和 储 
务 之 间 的 匹配 。 比 如 ， 如 果 训 练 样本 不 到 100 万 ， 那 么 几乎 所 有 的 技术 都 能 奏效 ， 包 括 传统 的 关 
系数 据 库 甚至 对 数据 进行 扁平 文件 表示 的 脚本 。 而 当 训练 样本 达到 1 亿 ， 关 系数 据 库 仍然 可 以 进 
行 必 要 的 数据 准备 工作 , 但 是 获取 数据 会 逐渐 变 成 一 件 越 来 越 令 人 痛苦 不 堪 的 事情 。 如 果 样 本 规 
模 达 到 10 亿 或 更 多 , 关系 数据 库 不 再 实用 , 可 能 必须 要 转向 诸如 Apache Hadoop 之 类 的 MapReduce 
系统 。 

10 亿 训练 样本 听 起 来 很 极端 ， 但 是 在 实际 中 达到 这 个 水 平 的 案例 却 出 奇 普遍 。 例 如 ， 在 17 
章 即将 提 到 的 Shop It To Me 公司 一 天 会 发 送 几 百 万 邮件 ， 而 每 封 邮件 包含 数 百 商品 。 因 此 ， 它 每 
天 能 够 产生 数 亿 的 训练 样本 , 并 且 很 快 就 能 达到 数 十 亿 规模 。 所 有 大 型 的 广告 网 络 每 天 的 广告 展 
示 数 目 远 高 于 10 亿 , 每 次 展示 就 是 一 个 潜在 的 训练 样本 。 一 个 每 月 拥有 百 万 独立 访问 者 的 音乐 流 
媒体 服务 大 概 每 月 能 产生 10 亿 的 训练 样本 。 

不 管 所 处 理 数据 规模 多 大 ， 模 型 训练 流水 线 必 须要 支持 如 下 功能 : 

O 必须 保持 数据 记录 获取 和 存储 的 一 致 性 ， 通 常 它们 基于 时 间 来 分 害 ; 

O 数据 记录 必须 要 和 某 种 参照 数据 进行 联结 运算 来 增强 ; 

O 数据 记录 必须 要 加 入 到 目标 变量 值 中 ; 

O 训练 数据 的 下 采样 可 能 有 用 应 该 支持 ; 

口 除了 简单 的 下 采样 之 外 ， 其 他 一 些 过 滤 和 投影 操作 也 应 该 支持 ; 

Co 训练 数据 必须 要 采用 训练 特征 来 表示 ; 

O 训练 后 的 模型 必须 要 保留 关联 的 元 数据 信息 ， 这 些 信息 描述 了 对 数据 进行 表示 的 方式 。 

训练 数据 流水 线 的 多 个 部 分 往往 可 以 横向 扩展 , 但 是 当 涉及 一 个 模型 的 训练 时 ， 一 些 极 易 部 
团 的 Mahout 模 型 并 不 适合 在 训练 过 程 中 横向 扩展 。 这 也 意味 着 ， 当 数据 规模 很 大 的 情况 下 ,早期 
的 数据 清洗 和 处 理 可 以 采用 高 度 可 扩展 的 方式 来 处 理 , 但 是 当 模型 训练 完毕 之 后 ,就 必须 要 对 数 
据 的 高 效 表示 下 大 功夫 。 

这 一 节 将 介绍 利用 Mahout 及 相关 技术 来 构建 满足 上 述 功能 的 数据 流水 线 时 ,所 要 考虑 的 多 个 
重要 问题 。 接 下 来 的 介绍 中 假设 读者 已 经 熟悉 在 小 规模 情况 下 所 用 的 技术 , 因此 只 关注 那些 在 大 全 
规模 条 件 下 的 技术 。 


274 第 16 章 分 类 器 部 署 


16.3.1 获取 并 保留 大 规模 数据 


训练 大 规模 模型 意味 着 将 不 得 不 处 理 真正 的 大 训练 数据 集合 。 像 以 前 一 样 , 那些 在 小 规模 数 
据 微不足道 的 问题 往往 在 大 规模 上 数据 上 一 下 子 变 成 很 严重 。 大 部 分 的 这 些 问 题 都 源 自 一 个 事 
实 ， 即 大 规模 数据 拥有 大 量 在 比喻 上 被 称 为 惯性 (inertia) 的 东西 。 这 种 惯性 使 得 大 规模 数据 的 
移动 或 转换 十 分 困难 ， 需 要 为 将 来 的 打算 做 好 事先 的 规划 。 如 果 对 于 新 数据 没有 直接 的 体验 ， 上 
述 规划 不 可 能 高 效 完成 。 因 此 ， 在 对 数据 有 足够 体验 之 前 ， 用 户 需要 回 到 并 遵循 最 佳 实践 标准 。 

1. 获取 数据 

大 规模 数据 集 上 的 第 一 个 问题 就 是 对 它们 的 获取 。 这 听 起 来 很 容易 , 但 是 就 大 规模 数据 源 上 
所 需要 做 的 事情 而 言 ， 它 比 看 上 去 要 更 难 。 这 个 处 理 层 次 的 主要 做 法 是 保持 数据 的 相对 紧凑 性 ， 
并 保持 数据 产生 过 程 中 的 很 自然 的 内 在 并 行 机 制 。 

例如 ， 如 果 拥 有 大 量 服务 器 ,每 台 服 务 器 每 秒 处 理 数 千 事 务 , 那么 此 时 采用 单个 中 心 日 志 服 
务 器 可 能 是 个 糟糕 的 做 法 。 这 是 因为 极度 的 中 心 化 易 受 单 点 故障 的 有 影响。 数据 获取 系统 很 容易 反 
问 影 响 整 个 所 观察 系统 的 运行 。 为 避免 上 述 问 题 ,在 数据 获取 过 程 中 进行 减 载 至 关 重 要 , TRE 
失 一 些 数据 也 不 能 让 生产 系统 崩溃 。 

第 二 个 获得 大 规模 数据 集 的 技巧 是 , 确保 保存 数据 的 目标 是 为 了 证 机 器 以 机 器 可 读 的 格式 来 
读 取 这 些 数据 。 拥 有 对 人 可 读 的 日 志 也 很 好 ， 但 是 从 这 些 日 志 中 提取 数据 是 常见 的 错误 源 之 一 ， 
这 是 因为 这 些 数 据 的 格式 过 于 宽松 。 最 好 将 人 要 读 的 数据 保存 为 对 人 可 读 的 格式 而 将 要 处 理 的 数 
据 保存 为 机 器 可 读 的 格式 。 

对 于 大 规模 数据 获取 来 说 , 可 以 使 用 多 种 不 同 的 数据 格式 , 但 是 只 有 其 中 的 一 部 分 可 以 同时 
提供 紧凑 性 、 快 速 解析 库 和 最 重要 的 schema 的 灵活 性 ,而 这 些 要 求 是 必要 的 。Schema 灵 活性 可 以 
允许 所 存储 数据 的 演变 同时 仍然 能 够 读 取 旧 数据 。 

两 种 最 突出 的 同时 支持 上 述 功 能 的 编码 格式 是 Apache 的 Avro 和 谷歌 的 Protocol Buffers。 两 种 
格式 的 支持 都 非常 好 ， 并 且 提 供 可 比 的 功能 和 灵活 性 。 利 用 有 逗号 或 Tab 分 开 字 段 的 数据 存储 方法 
非常 普遍 , 但 是 这 种 方法 当 schema 演 变 时 很 快 就 会 出 现 问题 , 这 是 因为 哪 列 数据 包含 哪个 字段 会 
出 现 混 淆 。 当 不 同 schema 的 文件 必须 要 同时 进行 处 理 时 ， 上 述 混 消 会 变 得 特别 严重 。 

2. 分 割 并 存储 数据 

当 获 取 并 存储 数据 时 ， 必 须要 遵循 如 下 组 织 原 则 来 保证 最 终 得 到 的 是 可 扩展 系统 。 

口 通常 情况 下 ， 每 个 目录 下 包含 的 文件 数目 通常 应 该 不 多 于 几 千 。 更 大 的 目录 会 导致 扩展 
问题 ， 这 是 因为 在 极 大 的 目录 下 打开 和 创建 文件 将 需要 更 长 的 时 间 。 

口 程序 处 理 的 文件 数目 应 该 尽量 少 ， 这 可 以 通过 不 处 理 无 关 数 据 并 且 将 文件 保留 得 尽量 和 
实际 一 样 大 来 实现 。 避 人 免 无 关 数 据 的 处 理会 限制 数据 的 传输 量 ， 而 使 用 大 文件 会 最 小 化 
磁盘 寻 道 带 来 的 时 间 损 失 从 而 最 大 化 IO 速度 。 

口 文件 组 织 的 目录 结构 应 该 支持 常用 的 相关 训练 数据 选择 方式 。 目 录 组 织 得 好 可 以 在 不 遍 
历 所 有 文件 的 情况 下 发 现 相关 文 档 。 

口 文件 通常 应 该 不 超过 1GB 以 方便 处 理 。 文 件 应 该 足够 小 以 方便 在 合理 的 短 时 间 内 在 系统 之 
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间 传 输 。 这 也 使 得 可 以 通过 反复 快速 传输 来 限制 网 络 中 断 带 来 的 影响 。1GB 左 右 是 个 很 不 
错 的 中 间 妥 协 值 。 
遵循 上 述 原则 通常 会 导致 如 下 结果 : 顶层 目录 存储 的 是 数据 的 一 般 类 别 , 而 子 目 录 下 包含 逐 
渐 精 细 的 按照 时 间 划 分 的 结果 。 


提示 将 多 个 小 的 旧 文 件 合并 成 能 够 代表 更 大 时 间 段 的 大 文件 通常 是 一 个 好 的 做 法 ， 这 可 以 避 
免 后 续 处 理 过 程 有 过 多 的 文件 输入 。 如 果 对 于 最 近 的 时 间 段 需要 更 细 的 时 间 粒 度 ， 那 么 
文件 可 能 会 按照 非常 短 的 时 间 段 来 保存 ， 比 如 5 分 钟 间隔 ， 但 是 几 天 以 后 ， 这 些 文件 就 应 
该 按 小 时 然后 按 天 累加 到 文件 中 。 如 果 每 天 的 数据 超过 1~2 GB， 那 么 每 天 保存 多 个 文件 
或 许 是 一 个 好 的 做 法 。 


3. 增 量 式 处 理 

在 很 大 程度 上 说 , 特征 提取 并 不 是 那 种 需要 在 长 时 间 段 上 进行 累计 的 任务 。 这 也 意味 着 一 旦 
对 一 小 时 的 数据 进行 了 必要 的 联结 运算 和 数据 缩减 处 理 来 得 到 相应 的 训练 数据 , 该 数据 在 下 一 个 
小 时 的 数据 到 来 之 前 可 能 不 会 改变 。 这 种 特性 使 得 每 次 训练 完成 时 增 量 式 获取 训练 数据 相当 容 
易 ， 而 不 是 为 全 时 间 段 进行 所 有 的 特征 提取 。 

同样 , 这 种 增 量 式 处 理 过 程 也 使 得 短 时 间 段 内 所 提取 的 特征 可 以 累积 ,然后 合并 后 长 期 存储 。 
例如 , 将 以 小 时 计 的 训练 数据 进行 累积 并 将 它们 合并 成 以 天 计 的 训练 文件 然后 几乎 可 以 实现 永久 
保存 ， 这 种 做 法 十 分 常见 。 这 也 很 好 地 对 应 了 原始 数据 的 常见 保存 方法 。 

当 分 类 系统 相对 较 新 时 , 新 特征 的 加 入 和 下 采样 中 的 变化 可 能 意味 着 需要 时 常 重 构 训 练 数据 
文件 。 随 着 时 间 的 漂移 ， 变 化 的 频率 通常 会 下 降 。 一 旦 这 种 情况 发 生 , 增 量 式 构建 训练 数据 就 会 
是 一 个 语 点 ， 这 是 因为 数据 到 达 和 模型 训练 开始 之 间 的 延迟 会 被 降低 。 


16.3.2 ” 非 规范 化 及 下 采样 


在 用 于 训练 模型 之 前 对 直接 获取 的 数据 进行 非 规范 化 处 理 相当 普遍 , 这 是 因为 原始 数据 可 能 
来 自 于 不 同 的 存储 格式 ,包括 日 志文 件 、 数 据 库 表 和 其 他 数据 源 的 格式 。 在 非 规范 化 处 理 中 , 数 
据 可 以 低 元 余地 存在 独立 的 数据 表 中 , 这 些 表 通过 键 互相 联结 以 使 得 每 条 记录 都 是 自 包含 的 而 不 
需要 指向 外 部 数据 ， 这 些 表 的 例子 包括 用 户 信息 表 或 产品 描述 表 。 

由 于 模型 训练 算法 并 不 能 对 外 部 参照 数据 进行 解析 , 所 以 它们 的 输入 必须 要 完全 非 规范 化 才 
可 用 。 非 规范 化 几乎 往往 通过 某 种 联结 运算 来 完成 。 在 小 规模 到 中 等 规模 的 数据 集 上 ， 几乎 所 有 
的 方法 都 可 以 足以 完成 这 些 联结 运算 , 像 关 系数 据 库 一 样 的 工具 相当 有 用 。 然而 对 于 大 规模 数据 
集 ， 这 些 联 结 运算 很 难 高 效 处 理 。 此 外 ， 在 进行 联结 运算 时 必须 要 考虑 数据 的 特点 。 

1. 首先 联结 目标 变量 

几乎 到 处 都 需要 联结 运算 将 目标 变量 值 和 预测 变量 关联 起 来 。 如果 可 能 的 话 , 目标 变量 应 该 
在 非 规范 化 之 前 关联 , 这 是 因为 常常 需要 根据 目标 变量 的 值 来 决定 训练 样本 的 下 采样 做 法 。 在任 
一 后 续 联 结 操作 之 前 进行 下 采样 , 由 于 在 更 少 的 数据 上 得 到 几乎 一 样 的 结果 , 所 以 通常 能 实现 训 
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练 中 大 量 开 销 的 节省 。 

2. 内 存 中 联结 

某 些 情况 下 , 训练 数据 需要 联结 成 行 数 有 限 的 二 级 表 。 如 果 情 况 如 此 ， 二 级 表 有 时 可 以 调和 人 
内 存 ， 通 过 查询 二 级 表 的 内 存 表 示 来 完成 联结 。 

内 存 表 的 装载 过 程 在 Mapper 或 Reducer 的 configure 方 法 中 实现 。 内 存 中 的 联结 运算 可 以 
在 一 个 MapReduce 的 程序 内 部 作为 Mapper 或 者 Reducer 的 一 部 分 来 完成 ， 尽 管 正在 生成 分 类 训 
练 数据 ，Map 端 的 联结 仍然 更 普遍 。 

在 某 些 参考 文献 中 ,内存 式 联结 也 称 内 存 支持 式 联结 ( memory-backed join ), 比如 Lin 和 Chris 
Dyer 的 书 Data-Intensive Text Processing with MapReduce 中 就 是 这 样 。 

3. 合并 联结 

当 待 联 结 的 两 个 数据 集 都 很 大 的 时 候 ， 可 能 需要 合并 联结 (merge join ) 操作 。 在 一 个 顺序 执 
行 非 并 行程 序 实 现 的 合并 联结 操作 中 ， 两 个 基于 相同 键 排序 的 数据 集 可 以 在 两 个 数据 集 的 单 遍 扫 
描 中 完成 联结 。 

在 一 个 MapReduce 程 序 中 ,由 于 不 太 可 能 按照 每 个 Map 正 确 合并 数据 的 方式 划分 两 个 数据 集 ， 
因此 情况 有 点 复杂 。 然 而 ， 对 一 个 文件 进行 排序 时 可 以 建立 索引 。 索 引 数 据 的 路 径 可 以 作为 边界 
数据 提供 ， 从 而 每 个 Map 个 过 程 一 开始 读 取 非 索 引 数 据 的 一 个 划分 子 集 ， 然 后 在 索引 数据 中 的 正 
确 位 置 附近 寻找 并 从 该 位 置 开 始 合并 。 

当 数 据 本 来 就 排 好 序 时 ,合并 联结 十 分 有 用 , 但 是 常常 被 忽略 的 一 点 是 ， 如 果 输 入 数据 集中 
只 有 一 个 排 好 序 并 被 索引 的 话 ， 那 么 合并 联结 可 以 在 Reducer 而 不 是 在 Mapper 中 完成 。 这 种 做 
法 可 以 允许 利用 MapReduce 框 架 来 对 非 索引 输入 进行 排序 。 而 相对 于 全 Reduce 联 结 来 说 上 述 做 法 
是 否 节 省 时 间 只 能 通过 实验 来 确定 。 

4. 全 Reduce 联 结 

从 编程 量 来 说 ， 最 简单 的 联结 数据 的 方法 是 进行 全 Reduce 联 结 。 这 也 意味 着 在 Mapper 中 只 
需要 简单 地 读 和 人 两 个 数据 集 然 后 按照 感 兴趣 的 键 进行 归 约 即 可 。 这 种 做 法 可 能 会 比 合并 联结 的 花 
销 更 大 ， 这 是 因为 在 Hadoop 的 混 洗 (shuffle) 步 又 中 需要 对 更 多 的 数据 进行 排序 。 

当 进 行 全 Reduce 联 结 操作 时 , Hadoop 对 结果 进行 排序 将 很 有 帮助 , 这 样 训 练 记 录 会 在 加 入 到 
训练 记录 并 非 规范 化 之 后 到 达 。 利 用 Hadoop 进 行 排序 可 以 允许 Reducer 采 用 全 流 的 方式 来 编写 。 
由 于 Hadoop 中 的 混 洗 和 排序 进行 了 高 度 优化 ,一 个 暴力 的 全 Reduce 联 结 可 能 起 码 和 合并 联结 一 样 
高 效 ， 特 别 在 进行 一 个 Reduce 端 的 合并 联结 时 更 是 如 此 。 

如 果 训 练 数据 规模 大 于 要 联结 到 的 数据 , 那么 全 Reduce 联 结 和 任意 一 种 合并 联结 可 能 在 速度 
上 都 相当 。 


16.3.3 ”训练 中 的 陷阱 

即使 假设 数据 如 你 所 想 、 联 结 工作 正常 、 数 据 解析 也 正确 , 仍然 存在 一 些 非常 容易 陷入 的 陷 
阱 。 其 中 最 隐藏 、 诊 断 也 最 困难 的 是 目标 泄漏 。 另 一 个 常见 的 问题 是 所 使 用 的 数据 编码 表示 不 合 
理 ， 从 而 导致 在 期 望 的 结果 和 模型 看 到 的 数据 之 间 存 在 语义 失 配 。 下 面 将 详细 讨论 这 些 问 题 。 
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1. 目标 泄漏 或 目标 泄漏 

保持 每 天 的 训练 文件 能 够 充分 促进 随时 间 变 换 的 训练 过 程 , 这 种 训练 过 程 通常 对 于 避免 目标 
泄漏 十 分 必要 。 

例如 , 假定 在 某 个 目标 定位 系统 中 想 用 的 特征 是 基于 点 击 历史 的 用 户 聚 类 结果 信息 。 如 果 使 
用 该 聚 类 结果 来 训练 出 同一 时 间 段 的 一 个 模型 , 或 许 会 发 现 最 终 模型 在 对 点 击 进行 预测 时 效果 非 
常 好 。 然 而 , 这 里 发 生 的 事情 是 ， 基 于 点 击 历史 的 聚 类 可 能 会 将 没有 点 击 的 人 与 有 点 击 的 人 放 到 
不 同 簇 中 ， 这 种 划分 方法 意味 着 ， 在 聚 类 结果 建立 时 用 户 簇 就 是 一 个 目标 泄漏 。 

图 16-1 给 出 了 上 述 目标 泄漏 潜藏 在 设计 当中 的 一 个 示意 图 。 为 修复 这 个 漏洞 ,不 能 仅仅 只 
删除 出 问题 的 变量 。 基 于 用 户 历史 的 聚 类 仍然 是 一 个 有 价值 的 预测 变量 。 这 里 的 问题 只 是 因为 模 
型 没有 在 新 数据 上 进行 训练 。 


4 | 提取 点 击 
ae 史 特 征 


图 16-1 注意 不 要 这 么 做 : 由 于 目标 变量 (clicks > 0 ) 基于 簇 ID 所 在 的 相同 数据 ， 
因此 基于 点 击 历史 的 聚 类 会 在 训练 数据 中 引入 一 个 目标 泄漏 
图 16-2 给 出 了 如 何 先 通过 对 早期 数据 聚 类 然后 利用 近期 数据 训练 来 克服 上 述 问题 的 做 法 , 其 
中 近期 的 数据 对 聚 类 算法 来 说 是 未 知 的 。 更 进一步 ， 留 存 测 试 数据 可 以 来 自 更 近 的 数据 。 


图 16-2 一 种 避免 目标 泄漏 的 好 方法 : SEF RB AM RIB, 然后 从 第 4 天 开 
始 推导 目标 变量 (clicks >0) 
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按时 间 分 开 保存 数据 能 够 使 得 获取 测试 数据 非常 容易 。 在 这 种 场景 下 , 可 以 利用 第 五 天 的 数 
据 作 为 留存 数据 来 评估 模型 的 性 能 。 

2. 数据 表示 中 的 语义 失 配 

玫瑰 即使 不 叫 玫 瑰 ， 依 然 芳香 如 故 。 但 是 对 于 训练 数据 来 说 ,整数 并 不 总 是 表示 看 上 去 那样 
的 意义 。 某 些 情况 下 ,整数 代表 的 是 两 件 事 之 间 间 隔 的 小 时 或 天 数 。 男 外 一 些 情况 下 ， 整数 代表 
类 别 的 编号 。 上 述 情况 的 区 别 已 经 在 前 面 章 节 中 讨论 。 然 而， 尽管 我 们 愿望 良好 ， 训 练 模型 中 整 
数 数据 的 非 正 确 处 理 仍 然 十 分 普遍 。 由 于 非 正 确 数据 编码 表示 的 模型 实际 上 有 可 能 在 在 很 大 部 分 
时 间 内 性 能 表现 正常 ， 所 以 这 种 错误 可 能 很 难 调试 。 

这 种 错误 的 诊断 关键 是 , 对 最 终 模 型 的 内 部 结构 进行 考察 , 来 寻找 应 用 到 每 个 字段 的 多 个 权 
重 。 如 果 发 现 某 个 字段 的 具体 值 上 有 大 量 权重 , 那么 该 字段 被 看 做 是 类 别 型 或 单词 型 值 的 标识 符 
CID )。 如 果 发 现 某 个 字段 只 有 单个 权重 , 那么 该 字段 被 看 做 是 连续 型 变量 。 不 管 模型 如 何 看 待 字 
段 ， 其 方式 应 该 和 我 们 看 待 字段 的 方式 一 样 。 

上 述 规则 的 一 个 例外 发 生 在 拥有 的 整数 确实 是 整数 但 是 不 同 整数 值 的 个 数 有 限时 。 将 这 类 变 
量 看 成 是 类 别 值 可 能 会 非常 有 用 ,即使 它们 看 成 连续 值 更 正确 。 只 有 通过 实验 才能 真正 确定 上 述 
做 法 是 否 有 效 ， 但 是 只 有 整数 的 取 值 数目 很 小 时 ， 才 值得 尝试 一 下 上 述 的 小 技巧 。 

16.3.4 ”快速 读 取 数据 并 对 其 进行 编码 

对 许多 应 用 来 说 ， 前 面 章节 中 介绍 的 数据 读 取 、 解 析 并 表示 成 向 量 的 方法 已 经 够 用 。 然 而 ， 
需要 注意 的 是 , Mahout 中 的 SGD 分 类 器 只 支持 单机 而 不 是 多 机 并 行 下 的 训练 。 这 个 限制 就 会 导致 
大 规模 训练 数据 下 的 训练 时 间 很 长 。 看 一 下 齐 析 器 (profiler) 就 会 发 现 Mahout SGD 模 型 训练 API 
中 的 大 部 分 时 间 都 花费 在 训练 数据 的 准备 而 不 是 真正 的 学 习 过 程 中 。 

为 加 速 起 见 ， 必 须要 深入 到 比 平常 Java 程 序 更 低 的 低层 。 例 如 ，string 数 据 类 型 非常 方便 ， 
它 内 置 了 Unicode 的 支持 ， 并 且 拥 有 很 多 用 于 解析 、 正 则 表达 式 匹 配 等 操作 的 库 。 但 不 幸 的 是 ， 
上 述 令 人 愉快 的 通用 性 同时 也 付出 了 高 复杂 性 的 代价 。 对 于 训练 数据 而 言 , 字符 集 和 内 容 上 的 假 
设 限制 通常 要 比 一 般 文 本 严格 得 多 。 

训练 程序 遇 到 的 另 一 个 主要 的 速度 瓶颈 来 自 于 处 理 中 的 复制 模式 。 在 这 种 模式 中 , 常常 通过 
构造 不 可 变 字符 串 ( immutable string ) 代表 输入 行 来 处 理 数 据 。 这 些 行 又 划分 成 多 个 分 别 代表 输 
入 字段 的 新 的 不 可 变 字符 串 。 于 是 ， 如果 这 些 字段 表示 的 是 文本 ,它们 又 会 在 词 条 化 过 程 中 划分 
成 多 个 新 的 不 可 变 字符 串 。 而 词 条 可 能 进行 了 词 干 还 原 处 理 , 而 这 一 过 程 又 要 涉及 另 一 些 不 可 变 
字符 串 的 生成 。 

在 上 述 重 复制 的 编程 模式 下 , 完成 所 有 的 字符 串 内存 分 配 需要 消耗 很 大 的 代价 , 很 多 人 都 集 
中 关注 通过 广泛 重用 数据 结构 来 减少 分 配 开 销 。 然 而 ， 实 际 开销 中 的 内 存 分 配 开销 并 没有 那么 
大 ， 主 要 开销 是 反复 复制 的 开销 。 另 一 个 开销 源 自 Java 在 构建 新 的 String 对 象 时 涉及 的 对 每 个 
新 字符 串 的 散 列 编码 构造 过 程 。 散 列 编码 计算 的 代价 几乎 和 数据 复制 的 代价 一 样 大 。 

上 述 复制 也 为 大 规模 加 速 提供 了 机 会 ， 我们 可 以 通过 更 低层 抽象 和 避免 所 有 复制 来 实现 加 
速 。 在 更 低层 处 理 的 模式 下 ， 如 果 要 分 配 新 结构 时 ， 可 以 试图 来 引用 而 不 是 复制 原始 数据 。 这 些 
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小 结构 的 生命 周期 同时 也 十 分 短暂 ， 因 此 它们 的 分 配 和 收集 消耗 几乎 为 零 。 

下 面 给 出 了 一 个 字符 串 复制 模式 的 例子 , 其 中 给 出 的 是 一 个 简单 的 数据 分 析 类 , 它 利用 字符 
串 来 解析 由 制 表 (TAB ) 或 逗号 分 隔 的 数据 。 该 例子 展示 了 一 个 简单 、 清 晰 但 较 慢 的 解析 此 类 数 
据 的 方法 : 


class Line { 
private static final Splitter onTabs = Splitter.on(SEPARATOR) ; 
private List<String> data; 
private Line(String line) { 
data = Lists.newArrayList (onTabs.split(line)); 
} 
public double getDouble(int field) { 
return Double.parseDouble(data.get (field) ); 
} 


} 

很 显然 , 上 面 的 代码 没有 给 出 重要 细节 ,但 是 思路 非常 清晰 。 上 述 类 将 代表 一 行 的 字符 串 划 
分 成 一 个 字符 串 列 表 。 这 种 划分 和 新 字符 串 的 分 配 过 程 需要 对 数据 反复 复制 。 此 外 ,字符 串 复制 
中 ， 每 个 字符 需要 复制 两 个 字 节 。 

下 面 的 代码 清单 中 给 出 了 如 何 利用 上 述 代码 来 从 包含 CSV 数 据 的 文件 中 解析 和 表示 数据 的 
过 程 。 


代码 清单 16-1 解析 和 表示 CSV 数 据 的 代码 


public static void main(String[] args) throws IOException { 
FeatureVectorEncoder[] encoder = new FeatureVectorEncoder [FIELDS] ; 
for (int i = 0; i < FIELDS; i++) { 
encoder[i] = new ConstantValueEncoder("v" + i); 
| ie "| 
long t0 = System.currentTimeMillis(); 
Vector v = new DenseVector (1000) ; 
BufferedReader in = new BufferedReader(new FileReader(args[1])); 


String line = in.readLine(); 
while (line != null) { genes 
v.assign(0); 
Line x = new Line(line); < 一 一 解析 字符 串 
for (int i = 0; i < FIELDS; i++) { 
encoder[i].addToVector((byte[]) null, < 一 一 对 每 个 字段 进行 编码 


x.getDouble(i), v); 
3 
line = in.readLine(); 
} 
System.out.printf("\nElapsed time = %.3f s\n", 
(System.currentTimeMillis() - to) / 1000.0); 
} 


上 述 代 码 以 每 次 一 行 的 方式 读 人 数据 ， 然 后 利用 前 面 的 Line 类 对 每 行进 行 解析 。 对 发 现 的 
每 一 个 字段 ， 用 一 个 特征 编码 器 将 该 字段 加 入 到 特征 向 量 中 。 每 个 字段 都 有 一 个 独立 的 编码 器 。 
当 要 解析 百 万 行 数据 而 每 行 包含 100 个 数据 元 素 时 ， 上 述 代码 清单 中 通过 字符 串 解析 和 编码 表示 
的 做 法 需要 在 一 台 2.8GHZ Core Duo ( 英特尔 双核 处 理 器 ) 处 理 器 的 机 器 上 运行 75~80 秒 钟 。 如 果 
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做 一 些 改进 ， 速 度 至 少 可 以 提高 到 原 有 的 5 倍 。 通 过 下 面 将 要 介绍 的 改进 方法 ,完成 相同 的 任务 
的 一 个 程序 只 需要 不 到 15 秒 。 

1. 分 割 字 节 ， 而 非 字 符 

加 速 的 第 一 步 是 使 用 大 规模 字 节 的 IJO， 并 且 不 将 字 节 转换 成 字符 串 从 而 避免 对 输入 片段 的 反 
复 复制 。 在 Line 类 中 ， 每 一 行 从 输入 中 复制 ， 然 后 当 转 换 成 字符 串 时 又 一 次 进行 复制 ， 再 接着 在 
解析 出 每 个 片段 时 再 次 复制 。 上 述 所 有 过 程 使 得 程序 容易 理解 和 调试 ,但 是 肯定 降低 了 运行 的 速度 。 

对 很 多 数据 文件 来 说 ， 避 免 到 Java 字 符 串 的 转换 是 一 件 好 事情 ， 这 是 因为 文件 通常 都 有 一 个 
可 以 通过 ASCII 字 符 集 来 表示 的 限定 数据 格式 ， 其 中 每 个 字符 通过 单个 字 节 来 编码 。 而 Java 字 符 
需要 两 倍 的 字 节 空间 ， 移 动 它 们 需要 两 倍 的 内 存 带宽 。 更 进一步 ， 通 过 字 节 数组 ,可 以 几乎 完全 
避免 复制 操作 。 如 果 正 在 考虑 的 字段 包含 数字 ,那么 使 用 常规 的 Java 原 语意 味 着 这 些 字段 将 被 一 
些 例 程 进行 解析 ， 这 些 例 程 能 够 将 通常 的 Unicode 字 符 串 转换 成 数字 。 由 于 基本 的 数字 在 Unicode 
中 出 现 多 次 ， 因 此 上 述 转换 并 不 像 听 起 来 那么 容易 。 如 果 所 有 数据 都 是 ASCI 格 式 ， 那 么 上 述 转 
换 要 比 先 将 数据 转换 成 Unicode 然 后 再 将 这 种 通用 表示 结果 转换 成 数字 要 简单 得 多 。 

代码 清单 16-2 给 出 了 一 个 Line 类 的 修改 类 FastLine， 它 使 用 ByteBuffer 来 避免 复制 。 该 
代码 也 是 Mahout 样 例 中 simpleCsvExamples 程 序 的 一 个 内 部 类 。Fastline 也 采用 一 种 高 度 专 
用 的 解析 方法 来 解析 数字 ， 它 能 解析 由 1、2 位 ISO 拉 丁字 符 集 数字 构成 的 整数 。 


代码 清单 16-2 字 节 级 CSV 解 析 代 码 


private static class FastLine { 
private ByteBuffer base; 
private IntArrayList start = new IntArrayList(); 
private IntArrayList length = new IntArrayList(); 
private FastLine(ByteBuffer base) { 
this.base = base; 
} 
public static FastLine read(ByteBuffer buf) { 
if (buf.remaining() == 0) return null; 
FastLine r = new FastLine(buf) ; | 记得 这 里 是 引用 
r.start.add(buf.position()); 
int offset = buf.position(); 


避免 装 箱 (boxing) 的 
特定 集合 Collection) 


while (offset < buf.limit()) { 
int ch = buf.get(); 
switch (ch) { _ | 记得 行 尾 如 字段 结尾 
case '\n': 
r.length.add(offset - r.start.get(r.length.size()) - 1); 
return r; 
case SEPARATOR_CHAR: 
r.length.add(offset - r.start.get(r.length.size()) - 1); 
r.start.add(offset) ; 
break; “| 注意 下 一 个 字段 开始 
default: 


} 
} 
throw new IllegalArgumentException ( 


"Not enough bytes in buffer"); "| 假定 绥 冲 区 中 包含 完整 的 一 生 
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public double getDouble(int field) { 
int offset = start.get(field); 
int size = length.get (field); 
switch (size) { 


case 1: 
return base.get (offset) - '0'; 
case 2: 
return (base.get(offset)-'0') * 10+base.get(offset + 1) - 'O'; 
default: 
double r = 0 
for (int i= 0; i < size; i++) { 
r = 10 * r + base.get(offset + i) - '0'; 
} 
return r; 


} 
} 
} 


上 述 代 码 清单 中 Fastline 类 使 用 Mahout 集 合 包 中 的 IntarrayLists 来 存放 偏 移 和 长 度 。 
这 可 以 带 来 两 个 效果 : 一 是 避免 整数 的 装 箱 和 拆 箱 过 程 , 二 是 字段 保存 为 原始 字 节 数组 的 引用 从 
而 避免 复制 。 

上 述 的 文件 数据 解析 基于 多 个 很 强 的 假设 , 这 些 假 设 依赖 于 存在 某 些 限制 的 输入 数据 。 第 一 ， 
假设 ByteBuffer 总 有 足够 的 数据 来 完成 当前 行 。 第 二 ， 数 据 假定 采用 Unix 类 型 的 行 分 隔 符 ， 即 
只 有 一 个 换行 符 而 不 包含 回 车 符 。 第 三 ， 假 设 只 使 用 ASCI 字 符 子 集 。 

上 述 假设 使 得 在 实现 时 可 以 相当 自由 ， 从 而 读 人 和 解析 数据 的 时 间 不 到 基于 string 代 码 实 
现 同样 操作 所 花费 的 时 间 的 1/3。Fastline 很 好 ,但 却 非 全 部 。 

2. 直接 的 数值 编码 器 的 接口 

数值 可 以 采用 多 种 方式 编码 成 向 量 。 对 于 连续 变量 ， 可 以 使 用 ContinuousValueEncoder 
并 将 数值 以 字符 串 的 方式 传人 , 这 种 做 法 在 前 面 章节 中 可 以 看 到 。 另 一 方面 ， 如果 已 经 以 浮 点 形 
式 得 到 了 想 要 的 值 ， 那 么 就 可 以 输入 一 个 NULL 字 符 串 和 以 权重 方式 表示 的 权重 。 

在 一 个 直接 的 字 节 解析 器 中 , 可 以 快速 访问 字段 值 而 不 需要 将 其 先 转换 成 字符 串 然后 转换 成 
浮 点 表示 。 这 可 以 使 得 gonstantValueEncoder 中 的 权重 字段 使 用 非常 具有 吸引 力 。 下 面 的 代 
码 给 出 了 上 述 过 程 。 


代码 清单 16-3 ”直接 的 数值 编码 


public static void main(String[] args) throws IOException { 
FeatureVectorEncoder[] encoder = new FeatureVectorEncoder [FIELDS] ; 
for (int i = 0; i < FIELDS; i++) { 
encoder[i] = new ConstantValueEncoder("v" + i); 
} 
long t0 = System.currentTimeMillis(); 
Vector v = new DenseVector (1000); 
ByteBuffer buf=ByteBuffer.wrap( 
FileUtils.readFileToByteArray (new File(args[1]))); 
FastLine line = FastLine.read(buf); 
while (line != null) { 
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v.assign(0); 


for (int i = 0; i < FIELDS; i++) { al 使 用 wurz 字 符 串 值 
encoder [i] .addToVector( (byte[]) null, 


line.getDouble(i), v); 
} 
line = FastLine.read (buf); 
} 
System.out.printf("\nElapsed time = %.3f s\n", 
(System.currentTimeMillis() - t0) / 1000.0); 
} 


上 述 代 码 除了 使 用 Fastline 而 不 是 Line 之 外 ， 其 他 部 分 和 基于 字符 串 的 编码 程序 很 类 似 。 
这 里 构建 了 相同 的 编码 器 ， 仍 然 一 行 行 地 读 和 数据 ， 但 是 来 自 的 是 Fast1line 而 不 是 字符 串 水 平 
的 输入 。 这 里 对 每 个 字段 的 编码 与 前 面 有 少许 不 同 ， 这 是 因为 FastLine 类 将 字 节 表示 转换 成 数 
字 来 避免 编码 器 来 完成 这 一 任务 。 

上 面 利 用 Fastline 的 版 本 大 概 比 基于 字符 串 的 版 本 要 快 5 倍 , 前 面 已 经 提 到 过 这 一 点 , 但 是 
这 种 直接 数值 编码 技巧 的 效果 单独 拿 出 来 看 甚至 更 加 令 人 印象 深刻 。 在 处 理 百 万 行 数据 时 , 忽略 
数据 解析 的 时 间 ， 从 字 节 表示 中 对 所 有 数值 直接 编码 需要 4~5 秒 的 时 间 ， 但 从 字符 串 格 式 来 编码 
则 需要 40 多 秒 钟 。 

上 述 所 有 加 速 方式 的 整体 效果 是 , 不 需要 费 多 少 周折 , 就 可 以 对 原始 数据 实现 15 MBit/s 的 读 
取 、 解 析 和 编码 速度 。 通 过 使 用 多 线程 读 取 方式 , 整个 转换 率 可 以 很 容易 地 与 多 主轴 磁盘 传输 的 
速度 相 匹 配 。 如 果 采 用 包含 多 个 交互 变量 的 更 精细 的 编码 过 程 ， 整 个 编码 开销 将 会 有 所 上 升 , 但 
是 上 述 改进 方式 仍然 具有 很 大 影响 。 

如 果 在 运行 大 型 程序 时 ， 上 述 优化 是 值得 的 ， 特 别 是 直接 使 用 低层 crossFoldLearner 或 
OnlineLogisticRegression 对 象 而 没有 AdaptiveLogisticRegression 介 人 (mediation ) 
时 更 是 如 此 , 这 是 因为 这 些 低层 的 学 习 器 本 身 很 快 因此 读 和 人 训练 数据 可 能 是 限制 性 能 的 因素 。 男 
一 方面 , 使 用 更 抽象 的 基于 字符 串 的 方法 可 以 使 得 代码 的 编写 和 调试 更 加 容易 , 并且 在 数据 比较 
怪异 时 不 易 受 到 意外 。 

一 旦 (快速 ) 读 取 并 (快速 ) 转换 了 数据 ， 下 一 个 性 能 瓶颈 可 能 是 将 分 类 器 集成 到 服务 器 这 
个 过 程 。 


16.4 ”集成 Mahout 分 类 器 


Mahout 分 类 器 的 集成 通常 就 是 一 个 简单 的 建立 网 络 化 服务 的 过 程 。 因此 , 通常 网 络 化 服务 所 
要 考虑 的 吞吐 率 、 延迟 和 服务 更 新 等 问题 同样 要 在 这 里 加 以 考虑 。 由 于 Mahout 分 类 融通 常会 集成 
到 需要 很 高 速度 的 应 用 当中 ， 所 以 这 些 问题 在 这 里 考虑 时 稍 有 不 同 。 但 同时 在 某 种 程度 上 说 , 相 
对 于 大 部 分 服务 而 言 , 基于 Mahout 分 类 器 的 服务 相对 要 简单 一 些 , 这 是 因为 它们 是 无 状态 的 。 这 
种 无 状态 性 允许 琐碎 的 水 平 扩展 。 

这 一 节 将 介绍 如 何 计划 并 实际 将 Mahout 分 类 器 集成 到 一 个 服务 架构 中 。 然 后 ,在 16.5 节 中 将 
把 这 些 思想 综合 在 一 起 用 到 一 个 实际 运行 的 分 类 服务 器 例子 中 。 
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16.4.1 提前 计划 : 集成 中 的 关键 问题 


尽管 基于 Mahout 的 服务 具有 简单 的 优点 , 但 是 为 了 充分 发 挥 Mahout 的 潜力 ， 在 构建 这 种 服 
务 之 前 仍然 需要 考虑 一 些 关键 问题 。 这 些 问题 包括 客户 端 和 服务 器 端 职责 的 最 佳 划分 方法 、 检 查 
生产 数据 和 训练 数据 的 不 同 、 速 度 的 设计 及 模型 更 新 的 处 理 等 。 

1. 职责 分 解 

将 分 类 模型 集成 到 分 类 服务 中 会 遇 到 的 一 个 十 分 关键 的 架构 方面 的 选择 是 系统 客户 端 和 服 
务 器 端 职责 的 分 解 。 如 果 分 解 考虑 得 十 分 全 面 的 话 , 会 大 大 提高 系统 性 能 并 有 助 于 保障 设计 能 够 
应 对 未 来 的 考验 。 

一 般 而 言 ， 很 重要 的 一 点 是 确保 服务 器 处 理 特征 编码 和 模型 评估 。 但 是 , 关于 在 客户 端 还 是 
服务 器 端 到 底 各 自 做 多 少 特 征 提 取 , 这 里 存在 一 个 中 间 地 带 。 例 如 ,如 果 客 户 端 拥有 一 个 用 户 ID 
和 一 个 网 页 URL, 但 同时 服务 器 需要 从 用 户 资料 获取 一 些 信息 并 且 基 于 网 页 内 容 来 获得 一 些 内 容 
特征 , 那么 不 论 是 客户 端 还 是 服务 器 端 都 可 以 进行 必要 的 与 用 户 资料 数据 库 和 网 页 内 容 或 特征 组 
冲 区 的 联结 操作 。 如 果 在 客户 端 进行 这 些 联 结 和 特征 提取 操作 , 那么 留 给 服务 器 端 运行 的 任务 将 
更 加 有 限 , 这 样 可 能 就 会 得 到 一 个 更 可 靠 的 服务 器 。 而 在 服务 器 端 进行 上 述 联结 和 特征 提取 操作 
将 使 得 某 些 类 型 的 缓冲 处 理 更 加 容易 ， 并 且 会 对 客户 端 隐藏 模型 的 更 多 细节 。 

图 16-3 给 出 了 如 何 对 客户 端 和 服务 器 端的 职责 进行 分 解 的 例子 。 
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图 16-3 ”和 资料 数据 ( 如 用 户 资料 ) 的 联结 操作 优先 考虑 在 服务 器 端 运 行 ， 但 是 它们 
也 可 以 在 客户 端 运行 。 特 征 编码 应 该 肯定 在 分 类 服务 器 端 运 行 


一 条 好 的 设计 原则 是 ， 不 管 客户 端 程序 已 经 拥有 的 数据 格式 如 何 ， 模 型 服务 器 端 都 要 接受 。 
如 果 可 能 的 话 , 除非 在 模型 服务 存在 之 前 已 经 处 理 , 否则 服务 器 不 必 对 客户 端 已 经 做 的 数据 准备 
工作 进行 进一步 的 处 理 。 上 述 原 则 的 一 个 主要 的 例外 情况 是 ， 当 允许 模型 服务 器 联结 资源 时 ,会 
需要 访问 那些 对 客户 端 已 经 可 用 的 安全 资源 。 这 种 情况 下 , 准备 特征 编码 时 所 需要 的 联结 操作 可 
能 不 得 不 在 客户 端 实现 。 

2. 实时 特征 是 不 同 的 

将 模型 部 署 到 产品 中 的 一 个 主要 问题 是 产品 中 给 分 类 器 的 数据 往往 与 训练 分 类 器 时 构造 的 
数据 有 很 大 不 同 。 这 些 不 同 通常 也 非 有 意 为 之 ,它们 会 导致 程序 出 现 隐 项 的 漏洞 ， 显 然 ， 如 果 对 
上 述 问题 处 理 不 当 会 导致 很 差 的 分 类 性 能 。 
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那么 可 能 遇 到 的 到 底 是 哪 类 不 同 ? 有 些 不 同 来 自 时 间 变 化 过 程 , 这 与 目标 泄漏 有 些 类 似 。 比 
如 , 假设 想 预 测 用 户 是 否 将 会 购买 某 个 特定 商品 , 并且 问题 的 预测 变量 基于 用 户 资料 的 内 容 。 在 
建立 模型 的 训练 数据 时 , 很 容易 可 以 得 到 收集 训练 数据 时 而 不 是 购买 决策 时 的 用 户 资料 。 如 果 购 
买 过 程 完 成 后 会 有 额外 信息 存储 在 用 户 资料 中 , 那么 任 一 使 用 随时 间 变 化 的 资料 的 模型 在 给 定 非 
变化 资料 时 表现 很 差 。 

3. 记录 分 类 请 求 

记录 所 有 的 分 类 请 求 是 检查 生产 数据 和 训练 数据 何 时 不 同 的 最 佳 方法 之 一 , 甚至 在 分 类 系统 
准备 好 部 署 之 前 就 开始 记录 。 记录 一 小 段 时 间 之 后 , 可 以 使 用 任意 一 个 自己 喜欢 的 技术 来 为 所 讨 
论 的 时 间 有 段 提 取出 训练 数据 , 然后 将 提取 中 的 数据 与 记录 的 数据 进行 比较 。 如 果 它们 不 同 , 训练 
数据 提取 过 程 一 定 要 进行 某 种 程度 的 改变 以 避免 提取 随时 间 变 化 的 训练 样本 。 最 后 , 可 能 只 有 直 
接 记 录 的 数据 才能 用 于 训练 。 

4. 速度 上 的 设计 

构建 分 类 系统 时 速度 上 的 考虑 往往 会 陷入 互相 矛盾 的 两 个 极端 当 某 个 Mahout 分 类 器 正确 集 
成 时 ， 当 然 有 可 能 达到 极 高 的 速度 。 如 果 建 立 的 服务 只 是 对 单个 输入 记录 评估 单个 模型 ,那么 分 
类 服务 器 不 必 完 成 任何 大 开销 的 联结 操作 , 模型 的 评估 过 程 可 能 会 很 快 导致 网 络 的 开销 占据 主要 
地 位 。 速 度 问题 将 简单 归结 为 寻找 一 个 驱动 大 量 请 求 通过 服务 器 的 访问 方法 。 

例如 ， 不 管 请 求实 际 需要 的 时 间 多 短 ， 一 个 本 地 运行 的 Thrift 服 务 器 大 概 需要 比 50~100 微 秒 
略 少 一 点 的 时 间 来 完成 一 个 服务 器 请 求 。 由 于 一 个 典型 模型 评估 过 程 仅仅 需要 大 概 一 千 个 浮 点 运 
算 ， 因 此 它 的 完成 时 间 最 多 不 会 超过 一 二 十 微 秒 ， 也 就 是 说 90% 的 时 间 都 花 在 其 他 开销 上 。 如 果 
考虑 线程 和 网 络 传输 时 间 的 话 , 吞吐 率 会 比 上 面 的 数字 略 高 , 但 是 很 显然 大 部 分 时 间 都 不 是 花 在 
模型 评估 上 。 在 这 种 系统 中 ,关键 要 集中 对 网 络 延迟 进行 优化 处 理 。 为 达到 最 高 速度 ， 必 须要 将 
模型 集成 到 客户 端 代码 中 来 彻底 避免 服务 器 来 回 处 理 。 这 种 直接 的 集成 方式 使 得 每 个 模型 评估 的 
延迟 最 小 ， 但 是 它 可 能 大 幅 加 剧 模型 更 新 的 复杂 性 。 


提示 “如果 需要 一 次 评估 一 个 样本 ， 那 么 就 集中 考虑 减少 网 络 往返 的 次 数 来 使 得 评估 延迟 最 小 
并 考虑 客户 端 模型 评估 。 而 对 于 模型 更 新 来 说 ， 可 能 需要 某 类 服务 器 来 简化 模型 更 新 内 
容 的 分 发 而 不 是 依赖 于 某 个 可 以 像 本 地 文件 一 样 访 问 的 文件 。 


在 速度 区 间 的 中 间 段 , 分 类 模型 的 某 些 用 法 要 求 一 次 评估 很 多 模型 , 或 者 允许 很 多 特征 向 量 
在 单个 服务 器 请 求 中 一 起 传输 。 由 于 在 这 种 批 处 理 评估 方法 中 网 络 延迟 开销 可 以 被 多 个 模型 计算 
过 程 所 分 担 ,因此 导致 效率 的 实际 提高 。 相 对 于 每 个 服务 器 请 求 中 都 包含 单个 评估 的 情况 ,延迟 
本 身 并 没有 降低 ， 但 是 每 次 请 求 中 能 够 完成 的 计算 量 大 幅度 提高 。 


注意 每 次 服务 器 请 求 中 完成 大 量 的 模型 评估 过 程 是 一 件 好 事 ， 特 别 对 于 吞吐 率 来 说 更 是 如 此 。 
很 多 目标 系统 需要 对 大 量 对 象 进行 模型 评估 因此 能 够 允许 这 种 优化 处 理 。 
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在 速度 区 间 的 极端 段 ， 系 统 通 常 需要 对 极 大 量 的 输入 进行 计算 处 理 。 例如， 下 一 章 的 计算 营 
销 系统 需要 对 每 个 用 户 计算 数 十 万 到 数 百 万 的 商品 ， 也 就 说 有 多 少 商 品 就 要 做 多 少 次 模型 计算 。 
每 个 用 户 提交 一 个 请 求 ， 然 后 使 用 用 户 参 数 、 商 品 参数 及 用 户 - 商 品 交互 信息 来 建立 一 个 特征 向 
量 。 该 系统 中 的 模型 同时 也 相当 复杂 , 每 件 商品 都 会 涉及 数 百 或 数 千 个 非 零 特 征 。 在 这 种 情况 下 ， 
系统 计算 的 时 间 可 能 会 达到 几 百 毫秒 ， 此 时 计算 时 间 主 导 了 整个 架构 的 决策 过 程 。 

5. 模型 协同 更 新 

对 于 一 个 处 理 分 类 请 求 流 的 生产 系统 来 说 ， 期 望 100% 的 正常 运行 时 间 相 当 常 见 。 由 于 分 类 
器 通常 是 无 状态 的 , 通过 在 负载 均衡 器 后 面 挂 载 多 个 分 类 服务 器 构成 的 服务 器 池 , 可 以 满足 上 述 
正常 运行 时 间 的 需求 。 每 次 分 类 模型 更 新 并 发 布 到 生产 环境 时 ,上 述 服务 器 必须 要 加 载 新 模型 并 
利用 它们 来 分 类 。 有 时 候 可 能 还 有 个 额外 需求 , 即 要 求 模 型 的 更 新 几乎 同时 对 服务 器 池 中 的 所 有 
服务 器 可 见 从 而 维持 服务 器 间 的 一 致 性 。 

不 管 确切 的 需求 如 何 , 我 们 高 度 推荐 使 用 一 个 协调 服务 来 管理 模型 更 新 并 提供 活动 服务 器 列 
表 。 在 这 类 服务 中 ，Apache ZooKeeper 是 目前 为 止 最 流行 的 一 种 ,我 们 强烈 推荐 使 用 。Zookepper 
允许 连接 一 个 小 型 服务 器 集群 , 并 提供 API 像 访问 普通 文件 系统 一 样 访问 集群 。 除了 简单 的 创建 、 
替换 和 删除 函数 之 外 ，ZooKeeper 还 提供 更 改 通 知 和 一 系列 一 致 性 保障 功能 ， 这 些 功能 能 够 简化 
高 度 可 靠 的 分 布 式 系 统 的 创建 过 程 ， 其 至 在 服务 器 月 演 、 维 护 期 和 网 络 分 区 时 也 能 完成 。 

基于 ZooKeeper 建 立 模 型 协同 更 新 的 架构 可 以 十 分 简单 ， 特 别 是 不 需要 精确 同步 更 新 时 更 是 
如 此 。 在 这 种 架构 中 ，ZooKeeper 保 留 了 模型 的 配置 情况 。 分 类 服务 器 会 请 求 配 置 更 改 的 通知 信 
息 ， 当 某 个 模型 正在 工作 时 , 这 些 服务 器 会 维护 一 个 指示 文件 来 告诉 分 类 客户 端 哪个 服务 器 正在 
处 理 请 求 。 而 分 类 客户 端 通过 询问 ZooKeeper 来 确定 哪个 分 类 服务 器 可 用 。 

ZooKeeper 中 的 数据 可 以 按照 下 列 目 录 结 构 来 组 织 : 


/model-farm/ 
model-to-serve 
current-servers/ 

10.1.5.30 
LO. .5..3L 
10.2.5.32 


在 上 述 目录 结构 中 ，/model-farm/model-to-serve 文 件 中 包含 了 所 有 服务 器 在 用 的 模型 序列 化 
版 本 的 URL 地 址 。 每 个 活动 服务 器 在 启动 时 会 读 取 该 文件 并 在 任意 更 改 时 让 ZooKeeper 提 供 通 知 。 
此 外 ， 每 个 服务 器 每 30~60 秒 会 轮 询 该 文件 以 防 通知 没有 设置 到 位 ， 这 可 能 是 由 于 服务 器 启动 的 
时 候 文 件 还 不 存在 。 
当 ZooKeeper 通 知 服务 器 某 个 使 用 模型 有 更 改 时 ， 服 务 器 会 下 载 模 型 的 序列 化 形式 并 给 出 模 
型 的 一 个 新 实例 。 然 后 ,该 新 模型 将 用 于 所 有 后 续 的 请 求 。 一 旦 新 模型 正当 安装 的 话 ， 服 务 器 会 
以 唯一 的 名 字 在 /modelfarm/current-servers 目 录 下 建立 一 个 文件 。 并 且 要 么 在 文件 名 上 要 么 在 文件 
内 容 上 , 该 文件 会 包含 客户 端 向 服务 器 端 发 送 请 求 所 必需 的 信息 。 这 些 信息 可 能 包含 主机 名 和 端 16 
口号 。 当 机 器 拥有 多 个 网 络 接口 时 ， 需 要 注意 确保 处 理 的 正确 性 。 
图 16-4 的 梯形 图 给 出 了 新 模型 部 署 的 一 个 典型 时 间 序 列 。 
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在 图 16-4 描 述 的 序列 中 ,假定 ZooKeeper 一 开始 时 带 有 模型 设 定 值 。 当 服务 器 1 启动 时 ， 它 会 
从 ZooKeeper 装 和 人 设 定 值 然 后 载 人 模型 。 当 模型 全 部 载 人 可 以 提供 服务 时 , 服务 器 1 会 在 ZooKeeper 
上 建立 一 个 文件 来 表示 它 已 经 可 用 。 当 服务 器 2 在 不 久之 后 启动 时 ， 同 样 会 执行 上 述 过 程 。 当 控 
制 进程 在 ZooKeeper 上 用 新 模型 进行 更 新 时 ， 通 知 消息 会 传送 给 服务 器 1 和 服务 器 2， 于 是 模型 下 
载 和 可 用 性 通告 过 程 会 反复 进行 。 

上 述 过 程 理 解 起 来 十 分 简单 ， 实 现 起 来 也 非常 容易 。 但 是 , 由 于 所 有 服务 器 运行 相同 的 模型 
并 几乎 同时 更 新 模型 ， 所 以 上 述 过 程 具有 显著 的 局 限 性 。 不 难 想象 ， 由 于 每 次 完成 模型 装载 过 程 
之 后 服务 器 就 会 切换 到 新 模型 ， 上 述 同 时 更 新 会 导致 整个 集群 的 服务 性 能 下 载 ， 而 装载 过 程 也 可 
能 导致 在 短 时 间 内 不 同 服务 器 给 出 的 分 类 结果 不 同 。 类 似 地 ， 紧 接着 新 模型 装 人 之后， 服务 器 应 
答 可 能 会 有 某 种 程度 的 延迟 , 因此 所 有 服务 器 同时 陷入 这 种 低 质量 服务 状态 , 这 可 能 不 是 我 们 所 
想 要 的 。 还 有 , 如 果 模 型 文件 很 大 , 那么 所 有 服务 器 同步 读 取 文 件 可 能 会 因 网 络 开销 而 造成 问题 。 
下 面 给 出 了 一 个 目录 结构 ， 展 示 的 是 如 何 对 更 新 进行 协调 来 完成 一 个 更 谨慎 的 模型 更 新 过 程 : 


控制 进程 
启动 装 
载 过 程 


部 署 新 
模型 


图 16-4 ”如 何 使 用 ZooKeeper 协 调 模 型 部 署 的 示意 图 。 控 制 进程 、 服 务 器 1 和 服务 器 2 之 


服务 器 1 服务 器 2 模型 档案 
局 动 


间 通 过 ZooKeeper 通 信 ， 而 当 模 型 修改 时 ZooKeeper 会 通知 服务 器 1 和 服务 器 2 


/model-farm/ 


should-load/ 
node-10.1.5.30 
node-10.1.5.31 
node-10.1.5.32 
node-10.1.5.33 

currently-loaded/ 
node-10.1.5.30 
node-10.1.5.31 
node-10.1.5.32 
node-10.1.5.33 

model-to-serve/ 
node-10.1.5.30 
node-10.1.5.31 
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node-10.1.5.32 
node-10.1.5.33 


在 上 述 目录 结构 中 , 顶层 的 model-farm 目 录 是 整个 模型 集群 的 名 字 。 在 该 目录 下 , should-load 
目录 下 包含 了 以 每 个 服务 器 地 址 命名 的 多 个 文件 , 其 中 每 个 服务 器 只 对 应 一 个 文件 。 每 个 文件 的 
内 容 包 含 URL 和 MD5 散 列 列 表 ， 这 些 信息 可 以 用 于 获取 和 校 验 模型 的 内 容 。 与 should-load 并 列 的 
是 currently-loaded 目 录 ， 它 包含 多 个 短期 文件 ， 其 中 每 个 活动 模型 服务 器 构建 一 个 短期 文件 ， 文 
件 中 包含 所 有 当前 该 服务 器 上 装 人 模型 的 MD5 散 列 列表 。 最 后 , 另 一 个 与 should-load 并 列 的 目录 
是 model-to-serve， 它 包含 的 是 多 个 文件 ,其 中 每 个 服务 器 节点 对 应 一 个 文件 , 其 中 包含 的 是 用 于 
所 有 到 来 的 请 求 的 单个 模型 的 散 列 值 。 

在 操作 中 ， 每 个 模型 服务 器 会 对 should-load 目 录 和 model-to-serve 文 件 维护 一 张 监视 表 。 
should-load 目 录 发 生变 化 表示 模型 应 该 装 入 或 印 载 ， 而 model-to-serve 文 件 发 生变 化 表示 所 有 后 续 
请 求 应 该 导向 所 指示 的 模型 。 每 当 模 型 装 入 或 者 种 载 时 ，currently-loaded 目 录 下 相应 的 临时 文件 
会 更 新 。 

相对 于 前 面 的 模型 , 这 种 目录 结构 能 够 在 复杂 实现 的 同时 允许 相当 的 灵活 性 。 这 种 灵活 性 能 
够 允许 新 模型 在 基本 同步 之 前 就 能 在 多 台 机 器 上 和 载 入 运行 。 它 还 能 允许 只 在 一 台 服 务 器 上 装 入 并 
运行 新 模型 , 这 样 可 以 在 该 模型 推广 到 其 他 所 有 服务 器 之 前 测试 它 的 稳定 性 。 使 用 MD5 散 列 允 许 
新 内 容 下 的 URL 的 重用 性 ， 并 且 可 以 允许 服务 器 来 校 验 它 们 是 否 装 人 了 预期 的 模型 。 

实际 当中 , 可 能 需要 将 上 述 模 型 扩展 到 控制 多 个 模型 服务 器 农场 , 或 者 将 模型 推广 到 逐步 增 
多 的 机 器 的 过 程 自动 化 。 对 于 服务 器 来 说 更 新 其 状态 文件 来 指示 能 够 处 理 的 流量 也 是 一 件 很 普遍 
的 事情 。 在 选择 发 送 服务 器 对 象 时 ， 发 送 请 求 的 客户 端 可 以 使 用 这 些 指 示 信 息 。 

另外 ,需要 记 住 的 是 ， 即 使 使 用 内 部 包含 多 个 模型 的 AdaptiveLogisticRegression 来 训练 
模型 ， 也 只 需要 从 下 面 的 crossFoldLearners 中 保存 一 个 模型 。 这 一 点 非常 重要 ， 这 是 因为 
AdaptiveLogisticRegression 包 含 了 大 量 分 类 器 ， 而 每 个 分 类 器 内 部 都 潜在 包含 大 量 的 系数 矩 
阵 。 如 果 特 征 向 量 很 大 ， 那 么 序列 化 的 aaaptiveLogisticRegression 可 能 实际 上 会 有 数 百 兆 。 


16.4.2 ”模型 序列 化 


在 Mahout 0.4 中 ，SGD 和 朴素 贝 叶 斯 模型 的 序列 化 方式 不 同 。SGD 模 型 共享 一 个 称 为 
ModelSerializezr 的 辅助 类 ， 该 辅助 类 处 理 所 有 SGD 模 型 的 序列 化 及 反 序 列 化 。 与 此 不 同 ， 朴 
素 贝 叶 斯 模型 只 序列 化 为 训练 中 创建 的 多 个 文件 的 副产品 , 而 朴素 贝 叶 斯 模型 的 反 序 列 化 并 不 基 
于 单个 方法 来 实现 ， 而 是 显 式 将 上 述 文件 读 回 到 内 存 中 。 

在 Mahout 的 未 来 版 本 中 ， 有 可 能 将 ModelSerializer 或 类 似 的 类 扩展 为 能 够 同时 处 理 SGD 
模型 和 朴素 贝 叶 斯 模型 。 在 那 之 前 , 朴素 贝 叶 斯 模型 的 序列 化 和 反 序列 化 过 程 仍然 是 个 微妙 而 又 
高 度 变化 的 过 程 。 在 更 可 用 的 序列 化 接口 完成 之 前 , 这 也 意味 着 朴素 贝 叶 斯 模型 的 部 署 要 使 用 前 
面 描述 的 命令 行 界 面 而 不 是 以 编程 的 形式 来 实现 。 

对 SGD 模 型 使 用 Modelserializer 类 

ModelSerializer 类 提供 了 将 模型 序列 化 为 文件 和 字符 串 的 静态 方法 。 这 个 类 的 使 用 就 像 
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下 面 给 出 的 片段 所 示 那 样 简单 , 该 片段 中 来 自 AdaptiveLogisticRegression 的 某 个 模型 和 完 
整 的 集成 模型 分 别 保 存在 不 同文 件 中 : 
if (learningAlgorithm.getBest() != null) { 
ModelSerializer.writeBinary("best.model", 
learningAlgorithm.getBest().getPayload().getLearner()); 
} 


ModelSerializer.writeBinary("complete.model", learningAlgorithm) ; 
所 有 不 同类 型 的 SGD 模 型 都 可 以 使 用 上 述 相同 的 方法 来 序列 化 。 
从 文件 中 读 取 一 个 模型 就 像 下 面 那 样 简单 : 


learningAlgorithm = ModelSerializer.readBinary ( 
new FileInputStream("complete.model"), 
AdaptiveLogisticRegression.class) ; 


OnlineLogisticRegression bestSubModel = ModelSerializer.readBinary ( 
new FileInputStream("best.model"), OnlineLogisticRegression.class) ; 


上 述 片 段 给 出 了 Moaelserializer 的 两 种 用 法 。 第 一 种 用 法 可 能 是 用 于 重新 装 人 一 个 完整 
的 拥有 子 模型 的 AdaptiveLogisticRegression 类 。 男 种 用 户 是 用 于 装 人 单 个 的 
OnlineLogisticRegression, 其 可 能 是 AdaptiveLogisticRegression 中 组 成 模型 的 一 个 。 
需要 注意 的 是 ， 要 向 readBinary 提 供 相应 的 类 ， 该 方法 才能 知道 需要 构建 和 返回 的 对 象 类 型 。 

当 将 SGD 模 型 序列 化 为 分 类 器 进行 部 署 时 ,通常 最 好 的 方法 是 只 序列 化 
AdaptiveLogisticRegression 中 性 能 最 优 的 子 模型 。 最 终 得 到 的 结果 序列 化 文件 将 会 比 序列 
化 AdaptiveLogisticRegression 对 象 中 包含 的 整个 集成 模型 所 得 到 的 结果 小 100 倍 。 此 外 ， 
当 有 数据 需要 分 类 时 ， 由 于 只 有 RdaptiveLogisticRegression 对 象 中 的 最 佳 子 模 型 被 使 用 ， 
而 其 他 模型 都 被 忽略 ， 因 此 个 体 模型 更 适合 部 署 。 

另 一 方面 ， 如 果 序 列 化 模型 时 要 求 后 面 还 可 以 继续 训练 ， 那 么 序列 化 整个 


AdaptiveLogisticRegression 或 许 是 更 好 的 思路 。 


16.5 “案例 : 一 个 基于 Thrift 的 分 类 服务 器 


将 一 个 工作 分 类 服务 器 的 各 部 分 拼 成 一 起 可 能 是 件 令 人 生 旦 的 事情 。 为 了 帮助 实现 这 一 点 ， 
本 节 会 给 出 一 个 完整 的 工作 样 例 , 该 样 例 中 会 展示 所 有 我 们 已 经 讨论 过 的 东西 。 我 们 已 经 编写 了 
一 个 简化 但 很 完整 的 分 类 服务 器 ， 该 服务 器 实现 了 16.4 节 中 介绍 过 的 那个 更 简单 的 部 署 方 案 。 该 
服务 器 提供 一 个 全 功能 负载 均衡 分 类 器 所 需要 的 全 部 基本 功能 ， 也 包括 一 些 管理 功能 。 

该 例子 中 分 类 客户 端 和 服务 器 端的 通信 使 用 Apache 的 Thrift ( http://thrift.apache.org ) 来 处 理 。 
Thrift 是 Apache 的 一 个 可 以 以 十 分 简单 的 方式 构建 客户 端 -服务 器 端 应 用 的 项 目 。 

本 例 当 中 多 个 服务 器 及 服务 器 和 客户 端 之 间 的 协调 工作 使 用 Apache 的 ZooKeeper 
( http://thrift.apache.org ) 来 处 理 。 本 例 中 ，ZooKeeper 持 有 所 有 分 类 服务 器 有 关 装 人 哪个 模型 的 指 
令 , 还 保存 了 所 有 服务 器 的 状态 信息 ,客户 端 通过 这 些 状 态 信 息 了 解 哪 台 服务 器 已 经 结束 、 每 台 
服务 器 上 运行 哪个 模型 。 这 种 服务 器 协调 的 结构 参见 图 16-5。 
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f xs || 
获取 配置 /通告 
通知 


寻找 服务 器 
= 
图 16-5 ”ZooKeeper 作 为 分 类 客户 端 和 服务 器 端的 协调 和 通知 服务 器 


这 种 安排 可 以 使 得 分 类 服务 器 知道 模型 定义 的 位 置 ， 客 户 端 也 可 以 找到 所 有 的 活动 服务 器 。 

当 某 台 服 务 器 启动 时 ， 它 会 询问 ZooKeeper 来 找到 装 人 的 模型 。 装 人 该 模型 后 ， 它 就 会 向 
ZooKeeper 写 人 一 个 文件 来 通告 所 有 机 器 它 可 以 接受 流量 。 每 当 应 该 装 人 哪个 文件 的 指示 文件 改 
变 时 ，ZooKeeper 会 将 该 更 改 通知 所 有 的 服务 器 。 

当 客 户 端 希 望 向 服务 器 发 送 一 个 查询 时 ， 它 会 浏览 ZooKeeper 来 找到 当前 正在 提供 服务 的 服 
务 器 并 从 中 随机 选 出 一 台 服 务 器 。 

用 于 协调 的 ZooKeeper 中 的 多 个 文件 的 结构 如 下 : 


/model-service/ 
model-to-serve 
current-servers/ 

hostname-1 
hostname-2 


model-to-serve 文 件 给 出 的 是 被 所 有 服务 器 装 人 用 于 分 类 的 模型 的 URL。 这 些 服务 器 将 维护 该 
文件 的 一 个 监视 表 从 而 一 有 修改 就 能 得 到 通知 。 当 它们 得 到 修改 通知 时 ， 会 装 人 model-to-serve 
文件 来 获得 新 模型 的 URL 然 后 重新 装 人 模型 。 服 务 器 一 装 人 任 一 模型 ， 就 会 在 current-servers 目 录 
下 建立 一 个 以 服务 器 名 字 命 名 的 临时 文件 。 由 于 该 文件 是 临时 的 , 所 以 如 果 相 应 服务 器 前 演 或 者 
退出 ， 该 文件 就 会 在 数秒 之 内 消失 。 

上 述 模 型 服务 器 的 主 类 代码 如 代码 清单 16-4 所 示 。 其 主要 包含 Thrift 服 务 器 层 的 创建 代码 , 但 
是 需要 注意 的 是 ZooKeeper 中 如 何 使 用 一 个 计时 器 来 按 计划 进行 周期 检查 。 这 种 做 法 可 能 完全 宛 
余 ， 但 是 这 是 “吊带 检查 式 ”(belt-and-suspender ) 编程 风格 的 一 个 很 好 的 例子 。ZooKeeper 应 该 
会 通知 任意 的 修改 ， 但 是 时 常 检查 可 以 确保 不 错过 由 于 编程 错误 导致 的 某 个 故障 。 


代码 清单 16-4 分 类 服务 器 的 主 程序 


public static final String ZK_ BASE = "/model-service"; 

public static final String ZK_CURRENT_SERVERS = 
ZK_BASE + "/current-servers"; 

public static final String ZK_MODEL = ZK_BASE + "/model-to-serve"; 

private final TServer server; 

private final Logger log = 
LoggerFactory.getLogger(this.getClass()); 

private final ZooKeeper zk; 

private final Ops modelHandler; 

private Timer timer; 
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private String currentUrl = null; 
private int version; 


private Watcher modelWatcher = new Watcher() { 9 代码 清单 16-5 中 会 给 出 细节 


} 
public Server(int port) 


throws TTransportException, IOException, 
InterruptedException, KeeperException { 连接 本 地 ZooKeeper 


zk = new ZooKeeper("localhost", 2181, null); 
modelHandler = new Ops(); 


timer = new Timer(); 每 30 秒 钟 重 试 模 i 
timer.scheduleAtFixedRate(new TimerTask() { 型 的 装 入 过 程 建立 分 类 器 
@Override 内 部 的 服务 
public void run() { 
modelWatcher.process (null); 
} 
}, 0, 30000); il 建立 Thrift 服 务 器 
socket = new TServerSocket (port) ; 
Classifier.Processor processor = new Classifier.Processor(modelHandler) ; 


TProtocolFactory protocol = new TBinaryProtocol.Factory(true, true); 
server = new TThreadPoolServer ( 

new TThreadPoolServer.Args (socket) .processor (processor) ); 
log.warn("Starting server on port {}", port); 


server.serve(); a— 启动 服务 器 
} 


public static void main(String[] args) throws IOException, 
TtransportException, InterruptedException, KeeperException { 


new Server (7908) ; 


} 
大 部 分 行为 都 在 modelWatcher 对 象 @ 中 。 该 对 象 是 ZooKeeper Watcher 的 一 个 实现 ， 每 当 
model-to-serve 文 件 发 生 修 改 时 就 会 触发 对 该 对 象 的 调用 。 下 面 给 出 的 是 modelwatcher 的 源码 。 


代码 清单 16-5 ” 装 人 模型 并 设置 模型 状态 的 Watcher 对 象 


private Watcher modelWatcher = new Watcher() { 


@Override 
public void process (WatchedEvent watchedEvent) { 
String hostname = null; 
try { 
hostname = InetAddress.getLocalHost().getHostName() ; 
} catch (UnknownHostException e) { 
} 
if (hostname == null) { 
log.error ("Must have hostname ... exiting"); 
System.exit(1); 
} 
String url = null; 


try { bg 从 ZooKeeper 中 获得 URL 


Stat stat = new Stat(); 
byte[] urlAsBytes = zk.getData(ZK_MODEL, modelWatcher, stat); 


int latestVersion = stat.getVersion(); 
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url = new String(urlAsBytes, Charsets.UTF_8) ; a 25 
if (currentUrl == null || latestVersion != version) { 检查 URL 是 否 修改 


URL modelUrl = new URL(url); 
log.warn("Loading model from " + modelUrl); 
AbstractVectorClassifier model = ModelSerializer.readBinary ( 
modelUrl.openStream(), 
OnlineLogisticRegression.class) ; 
try { 通知 ZooKeeper 模 型 
zk.create(ZK_CURRENT_SERVERS + "/" + hostname, 服务 器 已 经 装 入 
modelUrl.toString().getBytes(Charsets.UTF_8), 
ZooDefs.Ids.OPEN_ACL UNSAFE, CreateMode. EPHEMERAL) ; 
} catch (KeeperException.NodeExistsException e) { 


zk.setData(ZK_CURRENT_SERVERS + "/" + hostname, 
modelUrl.toString().getBytes(Charsets.UTF_8), -1); 
} catch (KeeperException e) { 


log.error("Couldn't write server status file"); 更 新 先前 存在 的 文件 

} 

modelHandler.setModel (model); 

currentUrl = url; 

version = latestVersion; 

log.info("done loading version " + version) ; 
} 
return; 如 果 ZooKeeper 中 没 

} catch (KeeperException.NoNodeException e) { 有 数据 ， 则 抛 出 错误 

log.error("Could not find model URL in ZK file: " + ZK_MODEL, e); 


return; 
} catch (KeeperException e) { 
log.error("Failed to load model due to ZK exception", e); 
} catch (InterruptedException e) { 
log.error("Operation interrupted should never happen", e); 
} catch (IOException e) { 
log.error ("Failed to load model from " + url, e); 
} 
log.warn("Clearing current URL due to error"); 
currentUrl = null; 
version = -1; 
} 
F; 


上 述 代 码 中 不 少 都 用 于 处 理 异 常情 况 ， 但 是 基本 的 框架 很 简单 。 代 码 中 的 骨干 部 分 在 
zk.getData@, zk.create@, zk.setData@ 的 调用 中 。 

上 述 代码 运行 如 下 : 它 尝试 从 ZooKeeper 读 取 模型 的 URL。 如 果 URL 读 取 之 后 并 不 存在 当前 
模型 ， 或 者 ZooKeeper 文 件 包含 的 URL 版 本 和 当前 模型 不 一 样 ， 那 么 模型 都 会 重新 装 人 并 且 该 服 
务 器 的 状态 文件 会 采用 此 模型 URL 来 更 新 。 更 新 时 ,首先 尝试 创建 状态 文件 ， 如 果 创 建 失败 则 更 
新 状态 文件 。 

如 果 由 于 模型 文件 丢失 导致 URL 的 原始 读 取 失败 的 话 , 那么 就 会 记录 下 一 条 消息 然后 发 生 一 16 | 
个 相对 正常 的 返回 过 程 。 其 他 造成 服务 器 当前 模型 URL 失 效 的 错误 情况 下 , 要 确保 下 一 次 重新 装 
入 模型 。 


292 第 16 章 分 类 器 部 署 


实际 的 分 类 请 求 处 理由 Thrif 服 务 器 来 完成 。Thrift IDL 中 定义 的 接口 如 下 所 示 : 


namespace java com.tdunning.ch16.generated 
service Classifier { 

list<double> classify(1: string text) 
} 


上 述 接口 定义 声明 服务 器 会 接受 分 类 请 求 。 每 个 请 求 将 会 返回 一 个 得 分 列表 , 每 个 得 分 反映 
的 是 每 个 可 能 目标 变量 值 的 可 能 性 。 
前 面 IDL 定 义 的 接口 的 实现 在 ops 类 中 ， 具体 代码 如 下 。 


代码 清单 16-6 分 类 服务 的 实现 


public class Ops implements Classifier.Iface { 
private static final int FEATURES = 10000; 


private static final FeatureVectorEncoder enc = 
new TextValueEncoder ("text"); 
volatile AbstractVectorClassifier model; 


public Ops() {} 


@Override 

public List<Double> classify(String text) throws TException { 
Vector features = new RandomAccessSparseVector (FEATURES) ; 
enc.addToVector(text, features); 


Vector r = model.classify(features) ; < 对 文本 分 类 


List<Double> rx = Lists.newArrayList() ; 

for (int i = 0; i < r.size(); i++) { 
rx.add(r.get(i)); = Seas 

} 

return rx; 


} 


public void setModel (AbstractVectorClassifier model) { 为 ZooKeeper 监 视 器 
this.model = model; HHF (hook) 


} 
} 


classify 方 法 使 用 当前 装 人 的 模型 对 特征 向 量 进行 分 类 。 当 Thrift 服 务 器 收 到 一 个 客户 端 请 
求 时 ， 就 会 调用 上 述 方法 来 将 文本 按照 第 15 章 TrainNewsGroups 程 序 的 风格 编码 后 传 给 它 。 然 
后 就 使 用 模型 计算 并 返回 一 个 得 分 向 量 。 


Ops 类 中 也 定义 了 一 个 setModel 方 法 @，ZooKeeper 监 视 器 类 可 以 利用 该 方法 在 观察 到 模型 
更 改 时 装 人 新 模型 。 


16.5.1 运行 分 类 服务 器 


为 观察 上 述 服 务 器 的 实际 效果 ， 可 以 使 用 ZooKeeper 的 命令 行 界 面 来 触发 其 行为 。 然 而 在 开 
始 之 前 ， 必 须要 有 一 个 可 工作 的 模型 。 代 码 清单 15-3 中 的 TrainNewsGroups 就 是 一 个 十 分 便利 
的 获取 上 述 模型 的 程序 ， 因 为 它 每 几 百 个 训练 样本 就 将 一 个 模型 副本 写 和 /tmp 中 。 
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建立 和 运行 rrainNewsGroups 的 过 程 在 源 代 码 附 带 的 README 文 件 中 进行 描述 。 
当 运 行 TrainNewsGroups 程 序 时 ,输出 量 十 分 巨大 。 输 出 中 的 一 些 关键 片段 如 下 所 示 : 


[INFO] [exec:java {execution: default-cli}] 
11314 training files 


0.62 189992.00 ... 7000 -1.017 81.02 none 
0.64 189992.00 ... 8000 -0.898 84.77 none 
0.75 189997.00 ... 10000 -0.948 84.71 none 


同时 ， 可 以 得 到 /tmp 下 保存 的 模型 文件 : 


$ ls -1 /tmp/ 


-rw-r--r-- 1... 1680247 Nov 21 01:16 news-group-1000.model 
-rw-r--r-- 1 ... 1680247 Nov 21 01:16 news-group-1200.model 
-rw-r--r-- 1... 1680247 Nov 21 01:16 news-group-1400.model 
-rw-xr--r-- 1 1680247 Nov 21 01:16 news-group-1500.model 
-rw-r--r-- 1... 1680247 Nov 21 01:19 news-group.model 

$ 


上 述 名 如 news-group-*.model 之 类 的 文件 包含 学 习 每 一 步 中 的 最 佳 模型 。 

一 旦 拥有 一 些 模型 文件 ， 就 可 以 像 第 16 章 源 代码 附带 的 README 文 件 中 的 说 明 描 述 的 那样 
启动 ZooKeeper 的 一 个 本 地 副本 。 

ZooKeeper 运 行 后 ， 可 以 启动 分 类 服务 器 : 


10/11/21 01:36:06 INFO zookeeper.ClientCnxn: Socket connection established to 
localhost/fe80:0:0:0:0:0:0:1%1:2181, initiating session 


10/11/21 01:36:06 WARN chi16.Server: Starting server on port 7908 


10/11/21 01:36:07 ERROR chl6.Server: Could not find model URL in ZK file: / 
model-service/model-to-serve 
10/11/21 01:36:08 WARN chi6.Server: Starting server on port 7908 


上 述 过 程 最 好 使 用 与 启动 ZooKeeper 不 一 样 的 另 一 个 窗口 来 完成 ， 这 样 当日 志 行 出 现时 才能 
对 它们 进行 分 离 。 

迄今 为 止 ， 分 类 服务 器 已 经 运行 ， 但 是 ZooKeeper 中 没有 关于 装 人 并 使 用 哪个 模型 来 对 请 求 
进行 分 类 的 任何 信息 。 为 将 正确 信息 放 人 ZooKeeper, 可 以 使 用 下 面 所 示 的 ZooKeeper 命 令 行 界面 。 
同样 ， 为 分 离 信息 也 最 好 使 用 一 个 新 窗口 。 


$ ~/Apache/zookeeper/bin/zkCli.sh <<EOF 

create /model-service "" 

create /model-service/model-to-serve \ 
file://localhost/tmp/news-group-1500.model 

quit 

EOF 


这 些 命令 应 该 会 产生 大 量 输出 ， 最 重要 的 输出 行 可 能 如 下 所 示 : 
[zk: 1] Created /model-service 
[zk: 3] Created /model-service/model-to-serve 
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在 用 户 与 ZooKeeper 交 互 的 同时 ， 前 面 启动 的 分 类 服务 器 每 30 秒 都 检查 一 次 看 看 ZooKeeper 
是 否 正 确 建 立 。 每 次 检查 时 ， 可 能 都 会 发 出 同样 的 不 能 找到 模型 URL 的 错误 消息 。 但 是 ,在 最 终 
建立 /model-service/model-to-serve 文 件 后 的 循环 中 ， 可 能 会 产生 一 个 不 同 的 消息 : 


10/11/21 01:45:04 INFO chl6.Server: Loading model from file://localhost/tmp/ 
news-group-1500.model 
10/11/21 01:45:04 INFO chl6.Server: model loaded 


这 时 候 ， 分 类 服务 器 正常 运行 。 可 以 通过 修改 model-to-serve 文 件 来 看 看 ZooKeeper 配 置 命令 
的 反应 : 

~/Apache/zookeeper/bin/zkCli.sh <<EOF 

set /model-service/model-to-serve file://localhost/tmp/xxx.model \ 

quit 

EOF 

几乎 在 刚刚 输入 上 述 命令 之 时 , 会 发 现 服务 器 输出 不 能 发 现 刚 才 假 造 的 模型 的 警告 。 可 以 利 
用 下 面 的 命令 回 到 正确 状态 : 

~/Apache/zookeeper/bin/zkCli.sh <<EOF 

set /model-service/model-to-serve \ 

file://localhost/tmp/news-group-1500.model 
quit 
EOF 


也 几乎 在 同时 , 分 类 服务 器 将 会 确认 已 经 装 和 模型。 如 果 有 10 个 模型 服务 器 运行 在 不 同 的 机 
器 上 ， 它 们 几乎 都 会 那么 快 就 有 响应 。 


16.5.2 ”访问 分 类 器 服务 


在 客户 端 ， 事 情 甚 至 还 要 简单 。 下 面 的 代码 清单 给 出 了 一 个 客户 端 如 何 从 ZooKeeper 获 取 活 
动 服务 器 信息 然后 向 其 中 一 个 服务 器 发 送 分 类 请 求 的 过 程 。 


代码 清单 16-7 访问 分 类 服务 器 


public class Client { 
public static void main(String[] args) throws TException, IOException, 


InterruptedException, KeeperException { 9 
获取 活动 服务 器 列表 


ZooKeeper zk = new ZooKeeper("localhost", 2181, null); 
List<String> servers = 
zk.getChildren(Server.ZK_CURRENT_SERVERS, false, null); 
if (servers.size() == 0) { 
throw new IllegalStateException("No servers to query"); 


i 9 随机 选择 服务 器 


int n = new Random().nextInt(servers.size()); 


String hostname = servers.get(n); 

Connection c = new Connection(hostname, 7908); 

List<Double> result1 = c.classify("this is some text to 发 送 请 求 
classify"); 并 打印 结果 
System.out.printf("%s\n", resulti); 

List<Double> result2 = c.classify("Given that the escrow " + 


"keys are generated 200 at a time on floppies, why\n" + 


16.5 案例: 一 个 基于 Thrift 的 分 类 服务 器 295 


"not keep them there rather than creating one huge" + 
" database that will have to\n" + 
"be guarded better than Fort Knox."); 
System.out.printf("%s\n", result2); 
c.close(); 


} 


Fe Pg BY Bs — EK A Zook eeper Kak 75 HY RS IOI M FPL 74-0. 
之 后 ， 它 连接 那个 随机 选中 的 服务 器 并 请 求 其 对 两 段 文 本 进行 分 类 人 @。 
客户 端 程序 的 输出 结果 应 该 看 上 去 如 下 面 所 示 ， 其 中 为 了 清晰 起 见 忽 略 了 某 些 片段 。 


$ mvn exec:java -Dexec.mainClass="mia.classifier.chl16.Client" 
[INFO] Preparing exec:java 


10/11/21 20:15:26 INFO zookeeper.ClientCnxn: Opening socket connection to 
server localhost/0:0:0:0:0:0:0:1:2181 


[0.03964640884739735, 0.07565438894170683, 


0.05901603385987076, 0.05114326116258236, 
0.050421016895119145, 0.044210065098318506, 
0.04114422304836256, 0.05402402583820334, 第 一 个 请 求 
0.05281506587810628, 0.042271194810117395, 
0.07788774620593823, 0.048761793702438536, 
0.03998325394587257, 0.03846382850793468, 
0.04373069260414459, 0.04980658400349993, 
0.04722614673439341, 0.04948828603244314, 
0.04477719025270829] 
0.030532890514017766, 0.25984369795811524, 
.03596784998912587, 0.05321219256232682, 
.02395166487009193, 0.033935125988576176, 
.03729692334981463, 0.04035766767461885, 
.05067830734673832, 0.03391626207189733, 第 二 个 请 求 
0.06666407060825316, 


-0424634477415305, 0.01074681122380413, 
-05212145428368258, 0.030600556819694907, 
-025032370110624636, 0.02760955132545441, 


[ 

0 

0 

0 

0 
0.07418249664999789, 
0 

0 

0 
0.02696366801467259] 
[ 


[INFO] 
BUILD SUCCESSFUL 

= 

上 述 两 个 请 求 的 输出 结果 为 一 系列 的 数字 列表 ， 其 中 每 个 数字 都 是 某 个 不 同 新 闻 组 的 得 分 。 
由 于 第 二 个 请 求 抽 自 真实 的 新 闻 组 帖子 , 因此 它 更 有 意思 一 些 。 该 请 求 也 在 第 二 个 新 闻 组 那儿 得 
到 一 个 显著 的 高 分 值 ， 如 你 所 想 的 那样 ， 当 给 定 分 类 器 数据 进行 分 类 时 就 会 得 到 一 个 结果 。 

上 述 例子 中 编写 的 客户 端 内 在 地 就 在 多 个 服务 器 之 间 进 行 了 负载 均衡 处 理 。 此 外 , 一 个 稍微 
先进 一 点 的 顺序 执行 多 个 查询 的 客户 端 可 能 会 在 ZooKeeper 的 current-servers 目 录 下 维持 一 张 监视 
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表 。 一 旦 该 监视 表 被 触发 ， 客户 端 可 以 选择 男 一 个 服务 器 。 只 要 任 一 新 服务 器 上 线 , 或 者 某 个 活 
动 服务 器 退出 或 崩溃 不 入， 上述 做 法 就 能 保持 立刻 的 负载 均衡。 

上 述 基 于 Apache Thrift 的 服务 器 案例 还 不 足以 正式 使 用 ， 但 是 可 以 看 成 很 多 类 实际 产品 级 部 
署 的 一 个 基本 骨架 。 上 述 系 统 设 计 中 的 一 个 关键 环节 是 在 多 服务 器 环境 下 使 用 ZooKeeper 在 分 类 
客户 端 和 服务 器 端 之 间 进 行 协 调和 通知 。 这 种 做 法 能 够 使 得 分 类 服务 器 快速 透明 扩展 , 并 且 能 在 
任意 时 刻 更 改 活 动 模型 。 


16.6 ”小结 


到 这 里 要 对 读者 表示 祝贺 ! 因为 您 已 经 成 功 操作 了 Mahout 分 类 中 的 第 三 步 也 是 最 后 一 步 , 即 
部 署 一 个 大 规模 的 分 类 器 。 迄 今 为 止 , 读者 知道 了 如 何 为 分 类 系统 构建 和 训练 模型 、 如 何 评估 和 
对 模型 进行 微调 来 提高 性 能 、 如 何在 巨型 系统 中 部 署 训练 好 的 模型 等 。 从 本 章 学 习 到 的 有 关 部 署 
的 关键 性 结论 包括 完整 理解 整个 项 目 、 设 计时 对 系统 中 任意 可 能 超出 Mahout 容 易 做 到 的 部 分 要 特 
别 注意 。 提 前 发 现 这 些 潜在 的 困难 可 以 有 机 会 修改 设计 来 避免 问题 的 出 现 或 者 安排 时 间 来 拓展 
边界 。 

通常 情况 下 , 部 署 一 个 大 型 系统 的 最 紧要 的 部 分 是 建立 训练 流水 线 。 在 需要 Mahout 处 理 的 规 
模 的 系统 中 ， 上 述 流 水 线 可 能 会 带 来 一 些 实质 性 的 工程 挑战 问题 。 成 功 处 理 的 一 个 关键 是 ,在 进 
行 极 大 规模 联结 操作 时 采用 并 行 方式 实现 流水 线 ， 关 于 这 一 点 前 面 已 经 学 过 。 

本 章 也 给 出 了 一 些 需要 避免 的 陷阱 ,如 避免 生成 目标 泄漏 或 造成 语义 失 配 。 我 们 给 出 了 这 些 
漏洞 可 能 出 现 的 多 种 隐蔽 方式 并 给 出 了 避免 办 法 。 

最 后 一 个 学 到 的 经 验 涉及 服务 的 设计 。 本 章 给 出 了 一 个 基于 标准 技术 ( 如 ZooKeeper 和 Thrift ) 
的 健壮 的 分 类 服务 的 核心 设计 案例 。 如 果 理 解 了 该 服务 设计 的 精神 , 那么 就 可 以 可 靠 地 反复 部 署 
高 性 能 的 分 类 服务 。 但 是 千 万 不 要 被 本 章 设计 的 简洁 性 所 欺骗。 系统 的 大 部 分 简洁 性 、 健 壮 性 和 
可 靠 性 都 建立 在 ZooKeeper 坚 实 的 基础 上 。 如 果 远 离 这 里 的 基本 设计 思路 的 话 则 要 三 思 而 后 行 。 

正如 读者 看 到 的 那样 ， 当 集成 到 大 型 系统 中 , 即使 部 署 一 个 设计 良好 的 分 类 器 都 是 一 件 复 杂 
的 事情 。 下 一 章 我 们 要 结束 对 分 类 的 探讨 , 其 中 将 会 给 出 将 上 面 所 讲 的 东西 都 集中 在 一 起 的 真实 
世界 的 一 个 大 规模 分 类 器 系统 案例 ， 该 系统 为 一 个 在 线 贸易 公司 Shop It To Me 所 使 用 。 


第 17 章 


案例 分 析 一 不 hop t/to Me 


本 章 内 容 

口 分 类 系统 速度 和 扩展 性 方面 所 考虑 的 问题 
口 构建 训练 流水 线 的 过 程 

口 极 高 吞吐 率 下 的 分 类 器 重 构 过 程 


迄今 为 止 , 前面 几 章 内 容 已 经 给 出 了 有 关 分 类 的 一 个 总 体 介 绍 ， 除 此 之 外 , 还 包括 设计 和 训 
练 Mahout 分 类 器 的 详细 解释 、 对 训练 模型 进行 评估 以 将 性 能 调整 到 想 要 的 水 平 以 及 将 分 类 器 部 署 
到 大 型 系统 等 内 容 。 本 章 将 通过 一 个 实际 案例 将 上 述 所 有 主题 付 诸 实践 ,该 案例 来 自 一 个 真实 的 
在 线 贸 易 公 司 Shop It To Me ( http://www.shopittome.com )， 该 公司 选择 Mahout 作 为 其 分 类 方法 。 
我 们 将 会 看 到 该 公司 的 一 个 小 的 工程 团队 在 建立 和 部 署 高 性 能 Mahout 分 类 器 时 遇 到 的 问题 和 解 
决 的 办 法 。 

第 16 章 主要 关注 超大 系统 的 规模 需求 ,该 需求 最 好 通过 Mahout 分 类 来 完成 。 类 似 地 , 本 章 案 
例 也 处 理 大 规模 数据 集 ， 但 同时 它 也 提供 了 一 个 即使 对 Mahout 系 统 来 说 速度 需求 都 很 极端 的 例 
子 。 出 于 扩展 性 特别 是 速度 上 的 要 求 ， 开 发 团队 所 涉及 的 解决 方案 中 需要 大 幅度 的 实质 性 创新 。 
总 的 来 说 ， 本 章 介绍 的 系统 将 会 展示 Mahout 分 类 器 比 初 看 起 来 更 强大 的 一 面 。 

在 介绍 Shop It To Me 系统 之 后 ,会 考察 其 外 发 邮件 系统 的 工作 过 程 并 介绍 该 系统 产生 的 数据 。 
该 案例 分 类 器 的 目标 会 随 着 模型 训练 的 每 一 步 来 介绍 。 然 后 考察 Shop It To Me 团队 是 如 何 使 得 训 
练 和 模型 计算 的 过 程 足 够 快 来 满足 业务 需求 的 。 

最 后 ， 我 们 总 结 本 案例 中 学 到 的 经 验 以 便 能 够 将 学 到 的 知识 用 到 自己 的 项 目 中 去 。 


17.1 Shop It To Me 选择 Mahout 的 原因 


Shop It To Me 这 个 案例 会 揭示 为 什么 Mahout 对 于 某 些 规 模 和 速度 的 问题 是 十 分 理想 的 选择 
方案 ， 而 这 些 问 题 的 其 他 方案 却 不 能 很 好 解决 。 但 是 为 了 让 读者 深刻 理解 该 案例 中 面 对 的 挑战 ， 
了 解 一 下 公司 的 背景 信息 十 分 有 益 。 接 下 来 ， 我 们 看 看 Shop It To Me 公司 是 干什么 的 、 他 们 需要 
分 类 系统 干什么 以 及 为 什么 选择 Mahout 来 构建 该 系统 。 
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17.1.1 Shop It To Me 公司 简介 


Shop It To Me 是 一 个 免费 的 在 线 个 人 购物 服务 ， 它 通过 邮件 ( SaleMail ) 通知 为 顾客 提供 
感 兴趣 的 销售 商品 。 公 司 的 使 命 是 及 时 在 顾客 和 满足 顾客 偏好 的 销售 商品 之 间 建 立 联 系 。 由 于 
用 户 交 易 往 往 与 临时 打折 的 商品 有 关 ， 因 此 及 时 性 特别 重要 。 如 果 需 点 击 的 商品 链接 没有 及 时 
传送 给 顾客 , 该 商品 将 会 在 购买 之 前 消失 。 简 而 言 之 , 公司 的 使 命 就 是 展示 顾客 想 要 看 的 商品 。 

Shop It To Me 与 几 百 个 零售 商 之 间 有 合作 关系 ， 因 此 公司 能 够 知道 商品 上 市 销售 的 时 间 。 迄 
今 为 止 ，Shop It To Me 有 超过 300 万 的 顾客 ， 为 构建 发 送 给 顾客 的 邮件 ( 即 SaleMail )， 公 司 每 个 
月 会 给 出 超过 20 亿 的 商品 推荐 信息 。 


17.1.2 Shop It To Me 需要 分 类 系统 的 原因 


读者 可 能 会 有 疑问 ， 上 述 商 业 使 命 本 质 上 基于 推荐 形式 ， 即 预测 特定 顾客 喜欢 哪些 商品 ， 这 
种 需求 为 什么 需要 分 类 呢 ? 这 里 选择 分 类 的 原因 在 于 在 Shop It To Me 这 种 情况 下 常规 的 推荐 方法 
不 太 理 想 。 在 商品 被 很 多 用 户 看 过 之 后 推荐 系统 会 表现 很 好 。 经 典 的 例子 包括 电影 和 音乐 的 推荐 。 
通过 对 某 些 相同 商品 的 交互 相似 度 可 以 找到 用 户 之 间 的 关联 , 这 种 相似 度 可 以 预测 用 户 的 其 他 偏 
好 。 最 重要 的 一 点 是 ， 推 荐 系统 中 被 推荐 的 商品 第 二 天 仍然 存在 。 

但 是 ，Shop It To Me 推荐 给 顾客 的 商品 并 不 存在 这 种 持久 性 。 不 夸张 地 说 ， 最 畅销 商品 即使 
今天 可 能 还 在 但 是 明天 可 能 就 断 货 。 商品 的 这 种 短暂 性 本 质 意味 着 推荐 系统 必须 要 考虑 训练 数据 
中 商品 的 特性 ， 比 如 品牌 、 价 格 、 颜 色 等 ,这 些 信息 在 后 来 的 商品 中 也 会 存在 。 为 实现 这 一 点 需 
要 另 一 种 方法 ， 即 作为 一 个 类 推荐 系统 的 一 部 分 ， 利 用 分 类 来 进行 预测 。 在 Shop ItTo Me, FIFA 
的 数据 包括 用 户 的 个 人 历史 以 及 要 推荐 商品 的 特性 信息 。 这 些 信 息 构 成 了 所 有 的 预测 变量 。 这 里 
也 有 一 个 很 好 的 目标 变量 ， 即 用 户 是 否 会 点 击 某 件 商品 。 

为 了 提高 这 些 推荐 的 作用 ，Shop It To Me 构建 了 一 个 先进 的 分 类 系统 提供 来 帮助 精确 预测 哪 
些 商 品 会 吸引 特定 的 用 户 。 当 为 某 个 特定 用 户 构 建 一 封 SaleMail 时 ， 该 分 类 系统 会 计算 已 训练 分 
类 模型 的 值 来 预测 对 于 数 十 万 可 能 的 商品 中 的 每 一 个 用 户 是 否 会 点 击 。 通 过 按照 预测 的 用 户 偏好 
概率 对 商品 排序 ，Shop It To Me 可 以 构造 特定 兴趣 的 SailMail 发 给 用 户 。 


17.1.3. ”对 Mahout 向 外 扩展 


构建 上 述 系统 会 面 对 一 些 特殊 的 挑战 。 不仅 要 面 对 几 十 亿 的 训练 样本 规模 ,还 要 达到 惊人 的 
分 类 速度 。 粗 略 计算 一 下 ,， 数 百 万 用 户 需要 对 几 十 万 商品 进行 模型 评估 ,， 也 就 是 说 有 几 千 亿 的 模 
型 评估 。 为 满足 邮件 构建 和 传输 流水 线 的 约束 条 件 ， 上 述 分 类 过 程 必须 要 在 几 小 时 内 完成 。 也 就 
是 说 ， 必 须要 在 每 秒 内 完成 数 千 万 次 分 类 ， 这 个 数字 按照 我 们 老家 的 说 法 叫 “a lot”。” 

为 在 合理 的 计算 构架 下 满足 上 述 苛刻 的 要 求 ，Shop It To Me 已 经 不 得 不 做 了 一 些 非常 有 趣 的 
工程 工作 。 多 个 系统 用 于 产生 原型 分 类 器 ， 包 括 R ( http://www.r-project.org/ ) 和 Vowpal Wabbit 
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( https://github.com/JohnLangford/vowpal_wabbit/wiki )， 后 者 是 雅虎 资助 的 一 个 开源 SGD 分 类 器 。 
利用 R 工 具 对 训练 大 数据 量 进行 简单 处 理 并 同 Shop It To Me 已 有 的 Ruby/JRuby 架 构 进 行 良 好 集成 
被 证 明 是 十 分 困难 的 。 而 Vowpal Wabbit 能 够 处 理 训练 数据 的 规模 ， 但 是 将 Vowpal Wabbit 很 好 集 
成 到 已 有 架构 也 十 分 困难 。 

另 一 方面 ，Mahout 可 以 处 理 训练 规模 并 且 可 以 和 已 有 架构 很 好 地 集成 。 在 Shop It To Me 系统 
中 ， Mahout 提 供 了 关键 的 部 分 ， 这 些 部 分 将 在 本 章 当 中 详细 介绍 。Mahout 不 一 定 是 任 一 项 目的 
优先 选择 ， 但 是 它 却 被 证 明 是 面 对 Shop It To Me 中 工程 挑战 的 最 佳 选择 。 


注意 Shop It To Me 系统 设计 、 关 键 变量 提取 及 模型 性 能 的 一 些 细节 属于 公司 机 密 ， 这 里 予以 省 
略 或 者 略 过 。 


系统 的 整个 框架 在 这 里 只 是 泛泛 地 描述 ， 并 不 包含 Shop It To Me 系统 各 方面 的 精确 细节 。 
但 是 ,为 理解 扩展 问题 及 其 解决 方案 给 出 了 足够 的 细节 。 这 些 问题 随 着 邮件 系统 本 身 的 结构 而 
产生 


在 Ruby 中 使 用 Mahout 

Shop It To Me 是 一 个 基于 Ruby 的 商店 ， 但 是 它 选 择 了 基于 Java 的 Mahout 来 作为 建 模 的 
平台 。 这 看 上 去 有 点 自 相 矛盾 ， 但 是 正如 Shop It To Me 的 工程 师 确 定 的 那样 ，Java 非常 容易 
集成 到 一 个 基于 Ruby 的 Web 服务 和 进程 中 去 。 其 中 一 个 主要 原因 在 于 JRuby 允许 从 Ruby K 
码 中 调用 Java， 这 种 调用 几乎 是 透明 的 ， 而 有 全 和 标准 Ruby 相 比 性 能 并 没有 显著 降低 。 这 使 得 
可 以 使 用 标准 的 Ruby 风格 和 工程 实践 方法 来 构建 分 类 服务 。 

另 一 方面 ，Shop It To Me 的 模型 训练 使 用 Cascading 集成 到 Rake 定义 的 Ruby 工作 流 中 实 
现 。 而 通过 某 种 领域 专用 语言 (DSL ) HS Cascading 工作 流 在 系统 中 隐藏 了 Cascading 的 Java 
本 质 。 

尽管 扩展 或 维护 现 有 系统 仍然 需要 重要 的 Java 专业 知识 ，Mahout 和 JRuby 之 间 的 大 部 分 
集成 并 不 需要 丰富 的 Java 知识 ,而 只 需要 标准 的 Ruby 方法 和 工具 就 可 以 完成 。 


17.2 邮件 交易 系统 的 一 般 结构 


Shop It To Me 的 整体 数据 流 大 致 如 图 17-1 中 的 路 径 所 示 。 该 图 给 出 了 如 何 利用 注册 信息 来 填 
充 用 户 表 格 和 品牌 偏好 表格 。 该 图 也 展示 了 如 何 使 用 利用 专门 的 数据 导入 器 从 零售 伙伴 中 发 现 销 
售 商 品 。 系 统 的 核心 部 件 是 SaleMail 构 建 器 ， 它 会 访问 包含 当前 销售 商品 、 用 户 及 其 兴趣 信息 的 
表格 。 包 含 一 个 点 击 预 测 模型 在 内 的 模型 用 于 选择 在 发 给 每 个 用 户 的 邮件 中 选择 哪 件 商 品 。 每 封 
邮件 中 包含 的 商品 记录 在 一 个 商品 出 现 表 中 。 
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| 外 发 邮件 


图 17-1 Shop It To Me 邮件 销售 系统 的 总 体 数据 流 图 。 虚 线 给 出 的 是 用 户 通过 点 击 邮 
件 中 的 商品 而 提供 反馈 的 过 程 


如 图 17-1 所 示 的 那样 , 用 户 及 出 售 的 商品 构成 了 邮件 生成 器 使 用 的 点 击 模 型 所 需 的 预测 变量 
数据 。 当 用 户 点 击 其 收 到 邮件 中 的 商品 时 ， 会 导致 网 页 的 访问 ， 这 些 访问 会 被 日 志文 件 所 记录 。 
然后 ， 这 些 记 录 到 的 点 击 信息 会 放 到 训练 数据 中 用 于 下 一 轮 的 建 模 ， 这 样 点 击 模型 就 可 以 更 新 。 
这 些 数据 集中 的 一 部 分 被 存在 关系 数据 库 中 ， 比 如 用 户 表 , 但 是 其 他 一 些 数据 集 ， 比 如 出 现 表 可 
以 存在 大 规模 日 志文 件 集合 或 进行 隐 式 存储 ， 一 旦 需要 就 必须 重 构 。 

Shop It To Me 系统 产生 的 一 封 邮件 示意 图 如 图 17-2 所 示 。 我 们 会 看 到 邮件 的 上 部 提供 了 多 种 
腕 表 以 供 选 择 ， 邮 件 的 下 部 还 给 出 了 更 多 的 商品 。 


Today's Shop it To Me Sale Alert == |>» 


salemali@shopittome.com to me 


624 AM (12 hours ago) ~ Reply 


Fo AMAAN 


Hello Ted, here 


You're only 10 friends away from a free gift cart! Invite more! 


Remow Rotate 


Free Shipping on afl orders of $200 or morol Discount apptied ot checkout. Exttudes Coach 


BAA Be 


图 17-2 ”从 Shop It To Me 发 送 的 推荐 邮件 中 截取 的 一 段 内 容 
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图 17-1 工 作 流 中 用 到 的 数据 库存 放 了 整个 系统 的 状态 信息 ,包括 可 购买 的 商品 、 已 经 发 送 的 
邮件 以 及 用 户 表 示 出 的 偏好 等 信息 。 图 17-3 给 出 了 Shop It To Me 系统 中 用 到 的 表 结 构 的 一 个 简化 
版 本 ,这 些 表 结构 用 于 记录 构建 点 击 模型 所 需 的 用 户 、 商 品 以 及 它们 之 间 的 交互 行为 信息 。 


[mT | 


| Saleltem | 
lid - 


= | Appearance | [Click |} 
: - timestamp ye l 

ageGroup itemld | timestamp yal 
[interests _ | userId uu uaa 


图 17-3 ”支持 Shop It To Me 数据 流 的 数据 库 表 的 简化 UML 视 图 。 每 件 销售 商品 包含 一 
个 唯一 的 供应 商 和 品牌 , 但 是 可 以 出 现 多 次 。 同 样 , 用 户 可 能 表现 出 对 多 个 品 
牌 的 兴趣 ， 但 是 会 浏览 很 多 商品 。 每 次 出 现 可 能 导致 至 少 一 次 点 击 行为 


在 图 17-3 中 ，User 和 SaleItem 表 的 非 规范 化 视图 会 导出 为 Apache Hadoop 文 件 用 于 构建 训练 数 
据 。 由 于 规模 原因 ，Appearance 表 并 不 是 真正 的 数据 库 表 。 实 际 上 它 保 存在 传统 文件 中 ， 文件 中 
包含 发 送 的 邮件 记录 。Appearance 表 和 Click 表 都 会 导出 到 Hadoop 来 联结 。 需要 注意 的 是 ， 如 何以 
高 度 规范 化 的 格式 来 保存 这 些 表 ， 这 对 于 处 理事 务 和 支持 Web 访 问 来 说 相当 重要 , 但 是 这 种 规范 
化 在 训练 时 必须 要 去 掉 。 

迄今 为 止 ， 我 们 已 经 了 解 了 Shop It To Me 邮件 系统 的 框架 以 及 销售 过 程 的 组 织 方式 。 想 象 一 
下 如 何 设 计 分 类 系统 。 不 管 要 建立 何 种 分 类 器 ，Shop It To Me 第 一 步 要 做 的 事情 是 训练 模型 。 


17.3 ”训练 模型 


训练 一 个 模型 首先 需要 一 些 初 步 规划 。 必须 要 考虑 如 何 提出 问题 来 满足 目标 的 需要 并 确定 系 
统 输 出 中 的 目标 变量 。 必 须要 考察 可 用 的 历史 数据 ， 以 了 解 哪 些 特征 可 以 用 作 变 量 , 确定 其 中 的 
哪些 特征 可 以 作为 最 有 效 的 预测 变量 。 对 于 Mahout 分 类 器 来 说 , 要 审视 所 做 项 目的 关键 点 特别 重 
要 , 这 样 才能 以 最 佳 方式 确定 如 何在 速度 和 规模 需求 之 间 寻 求 平衡 , 我 们 在 前 面 章节 中 已 经 讨论 
过 这 一 点 o 

本 节 将 介绍 Shop It To Me 如 何 完成 上 述 步 又 。 


17.3.1 定义 分 类 项 目的 目标 
Shop It To Me 的 工程 师 们 很 像 我 们 在 前 面 章 节 提 到 的 那样 解决 他 们 的 问题 。 其 分 类 项 目的 目 


302 第 17 章 案例 分 析 一 一 Shop It To Me 


标 是 , 基于 商品 的 出 现 信 息 和 用 户 的 点 击 历 史 构 成 的 训练 数据 来 预测 用 户 是 否 会 点 击 该 商品 。 点 
击 预测 是 目标 ， 而 用 户 和 商品 的 特性 是 预测 变量 。 然 而 ， 要 达到 可 用 状态 ，Shop It To Me 数据 需 
要 大 量 的 预 处 理工 作 。 

训练 数据 的 建立 流程 如 图 17-4 所 示 。 该 图 给 出 了 用 户 数据 的 预 处 理 及 其 与 商品 数据 的 联结 过 


程 ， 它 们 一 起 构成 了 模型 训练 所 要 的 数据 。 
EI 


e SVD+ k-means Map 端 联结 


图 17-4 ”模型 训练 数据 建立 中 的 数据 流 图 。 点 击 和 出 现 信息 以 并 行 的 方式 联结 并 进行 
选择 性 下 采样 处 理 。 然 后 所 有 的 数据 联结 在 一 起 产生 训练 数据 

Shop It To Me 系统 中 拥有 的 一 个 最 丰富 的 信息 是 品牌 偏好 数据 库 。 当 用 户 注册 到 Shop It To 
Me 系统 时 ， 会 回答 系统 有 关 品 牌 偏好 的 问题 。 他 们 的 回答 存储 在 品牌 偏好 数据 库 中 ， 这 是 一 个 
非常 优质 的 关于 用 户 偏好 的 信息 源 。 不 幸 的 是 ， 该 数据 的 格式 并 不 能 直接 为 分 类 所 用 。 

为 解决 上 述 问题 , 首先 使 用 SVD 分 解 来 对 数据 进行 约 简 然 后 采用 k-means 聚 类 算法 进行 聚 类 。 
SVD 分 解 是 一 种 常常 用 于 对 观察 数据 降 维 的 数学 技术 。 上 述 处 理 之 后 , 表现 出 相似 品牌 偏好 的 用 
户 会 被 分 到 同一 个 艇 中 。 品 牌 偏好 簇 的 人 D 以 某 种 十 分 适合 于 建 模 的 格式 表示 了 原始 品牌 信息 。 

在 全 部 计算 当中 , Appearances 表 是 最 大 的 一 张 表 , 最 终 训练 数据 当中 的 每 条 记录 都 可 以 回溯 
到 该 表 中 的 唯一 一 行 。 此 外 , 根据 商品 的 出 现 是 否 导致 一 次 点 击 对 Appearances 表 按照 不 同 采样 率 
进行 了 下 采样 。 未 点 击 的 出 现 信息 基本 上 都 会 进行 下 采样 , 但 是 点 击 的 信息 不 参与 下 采样 。 为 使 
下 游 的 联结 操作 处 理 更 少 的 数据 因而 更 加 高 效 ， 点 击 和 出 现 信息 的 联结 操作 在 一 个 完整 的 reduce 
联结 中 完成 ， 并 且 在 与 用 户 和 商品 元 数据 联结 之 前 在 Reaucer 中 进行 下 采样 处 理 。 

然后 ,点 击 及 出 现 数据 和 用 户 元 数据 及 商品 元 数据 进行 联结 操作 , 其 中 用 户 元 数据 包括 性 别 、 
年 岭 、 大 体 的 地 理 位 置 及 品牌 偏好 簇 等 , 而 商品 元 数据 包括 商品 编号 、 颜色 、 尺 寸 和 描述 信息 等 。 
这 里 的 联结 操作 将 利用 一 个 Map 端 的 联结 来 完成 , 这 是 因为 用 户 和 商品 元 数据 表 只 包含 几 百 万 记 
录 ， 放 到 内 存 相 对 容易 。 
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上 述 联 结 也 可 以 嵌入 一 个 Reduce 端 的 联结 运算 并 集成 到 点 击 和 出 现 信息 的 联结 步骤 中 完成 。 
通过 尝试 更 多 实验 ， 有 可 能 提高 上 述 实现 方法 的 性 能 。 


17.3.2 ”按时 间 划 分 


不 断 积累 的 训练 数据 按 天 来 划分 , 这 样 可 以 训练 数据 量 的 选择 及 更 具 灵 活性 , 更 重要 的 一 点 
FE, 这 样 可 以 允许 测试 数据 与 训练 数据 分 离 且 时 间 更 新 。 由 于 上 述 做 法 考虑 了 诸如 商品 库存 变化 
等 实际 效果 ,因此 它 对 性 能 的 评估 更 加 实际 。 当 旧 的 训练 数据 过 时 不 再 为 模型 所 用 时 ， 上 述 按 天 
来 划分 数据 的 做 法 也 会 带 来 好 处 。 

按时 间 划 分 的 做 法 也 能 允许 以 增 量 式 的 方法 来 构建 训练 数据 ， 比 如 一 次 一 天 。 这 也 意味 着 构 
建 长 期 训练 集 的 巨大 开销 可 以 分 担 到 一 段 很 长 时 间 ， 这 样 就 不 会 耽误 每 天 的 构建 过 程 。 

17.3.3 ”避免 目标 泄漏 

在 分 类 部 分 , 我 们 至 始 至 终 都 强调 对 特征 提取 进行 精心 规划 以 避免 目标 泄漏 的 重要 性 。 为 避 
免 目标 泄漏 问题 ，Shop It To Me 的 工程 师 们 使 用 了 一 个 基于 时 间 的 多 层 数 据 隔离 方案 。 对 品牌 偏 
好 信息 的 SVD 分 解 及 k-means 聚 类 基于 早期 的 数据 来 进行 ， 在 模型 建立 时 上 述 处 理 后 保存 的 结果 


相对 稳定 。 最 后 的 簇 模型 应 用 到 后 期 数据 来 产生 实际 的 训练 数据 。 此 外 ,更 近 的 数据 放 在 训练 算 
法 之 外 来 评估 训练 模型 的 精度 。 
17.3.4 调整 学 习 算法 

Mahout 学 习 算 法 的 默认 行为 可 能 并 不 能 完全 满足 Shop It To Me 公司 的 需要 ， 这 一 部 分 是 由 于 
这 里 的 分 类 器 以 推荐 程序 的 方式 来 使 用 , 另 一 部 分 是 因为 模型 很 难 训练 。 上 面 的 这 些 困难 使 得 公 
司 的 工程 师 们 对 默认 的 Mahout Logistic 回 归 算 法 在 多 方面 进行 了 扩展 。 

1. 基于 每 个 用 户 的 AUC 进 行 优化 

AdaptiveLogisticRegression 学 习 算 法 使 用 AUC 作 为 默认 的 指标 图 来 为 二 值 模型 调整 
超 参 数 。 在 Shop It To Me 分 类 系统 中 ，AUC 是 一 个 度量 哪 对 用 户 -商品 可 能 会 导致 点 击 的 精度 指 
标 。 不 幸 的 是 , 在 点 击 模型 中 的 一 个 最 强 信号 涉及 将 用 户 分 为 点 击 和 不 点 击 两 种 。 由 于 邮件 营销 
系统 的 基本 问题 是 对 每 个 用 户 将 商品 排序 , 预测 谁 会 点 击 并 不 是 兴趣 所 在 , 最 重要 的 是 让 商品 展 
示 给 用 户 之 后 预测 用 户 会 点 击 其 中 哪些 商品 。 为 帮助 学 习 算法 找到 解决 正确 问题 的 模型 , 需要 一 
个 不 同 于 一 般 的 指标 图 。 

在 Mahout 中 ， 有 两 个 类 可 以 用 于 计算 不 同形 式 的 AUC。 标 准 全 局 AUC 可 以 通过 
Globalonlineauc 来 计算 ， 而 基于 组 内 排序 的 AUC 则 使 用 GroupedaonlineaAuc 来 计算 。 
AdaptiveLogisticRegression 学 习 算 法 允许 实现 别 的 AUC 和 提供 成 组 准则 。 对 用 户 分 组 或 者 
对 用 户 聚 类 可 以 使 得 模型 有 别 于 简单 选择 点 击 用 户 的 模型 ， 从 而 达到 良好 的 推荐 效果 。 

2. 将 排序 和 评分 混合 学 习 

到 底 是 直接 学 习 出 概率 还 是 学 习 出 序 是 当前 的 一 个 主要 研究 领域 。 这 些 方 法 初 看 上 去 彼此 等 
SH, 但 是 多 位 学 者 指出 在 实际 情况 下 它们 之 间 存 在 不 同 。 一 个 最 近 的 进展 参见 谷歌 研究 人 员 D. 
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Sculley 的 论文 “Combined Regression and Ranking” o “Shop It To Me 工程 师 通 过 对 Mahout 代 码 包装 

实现 了 这 个 技术 , 其 中 维护 了 训练 样本 的 短暂 历史 数据 , 通过 当前 训练 样本 或 当前 样本 和 先前 样 

本 的 差异 梯度 来 更 新 模型 。Mahout 的 MixedGradient 类 中 有 大 量 未 经 测试 的 上 述 技术 的 实现 。 
该 技术 对 于 Shop It To Me 来 说 十 分 有 效 ,但 是 要 确定 它 真 正 正确 的 频繁 程度 需要 更 多 的 经 验 。 


17.3.5 ”特征 向 量 编码 


图 17-5 给 出 了 一 个 理想 训练 集中 的 一 条 记录 ,该 训练 集 可 能 用 于 构建 点 击 模型 。 在 点 击 模型 
正如 该 记录 一 个 更 实际 的 版 本 一 样 ， 感 兴趣 的 有 三 种 类 型 的 字段 : 

O 用 户 特有 的 字段 ; 

O 商品 特有 的 字段 ; 

O 用 户 -商品 的 交互 字段 。 


中 


- 


目标 变量 


pig 
,年 龄 组 “性别 品牌 偏好 簇 ,销售 商 。 品牌 商品 措 述 SAMIR Hea ati 
Sree dearer eg i ees ———— 
来 自用 户 来 自 商品 来 自用 户 及 商品 
图 17-5 一 个 简化 的 邮件 销售 系统 点 击 模型 中 可 能 用 到 的 训练 记录 字段 。 整 条 记录 包 
含 用 户 特有 、 商 品 特有 和 用 户 -商品 的 交互 变量 。 这 种 类 型 的 实际 模型 会 比 上 
述 概念 样 例 中 的 字段 多 很 多 


用 户 特有 字段 包括 年 龄 组 、 性 别 、 品 牌 偏好 簇 等 变量 的 值 ， 而 商品 特有 字段 则 包括 销售 商 、 
品牌 和 商品 描述 等 变量 的 值 。 最 有 用 的 是 用 户 -商品 交互 变量 ， 这 些 交 互 变量 使 得 模型 不 止 是 记 
录 哪 个 或 哪 类 商品 最 流行 这 样 的 信息 。 

与 前 面 的 特征 编码 例子 相 比 ,这 里 比较 有 趣 的 是 交互 变量 ,其 涉及 用 户 的 品牌 偏好 簇 编号 ( 
中 的 cluster )、 性 别 和 商品 品牌 这 些 信息 。 

为 使 用 推荐 SGD 算 法 采用 的 特征 散 列 模式 来 对 交互 变量 进行 编码 ， 编 码 中 需要 选择 的 向 量 位 
置 要 与 交互 变量 各 构成 特征 的 位 置 相 独 立 。 例 如 ， 图 17-6 给 出 了 我 们 想 要 的 处 理 方式 。 假 设 我 们 
手 里 有 一 个 大 小 为 100 的 稀 玖 向 量 , 通过 散 列 特征 编码 后 特征 “gender=female” 可 能 被 分 配 到 位 置 
8 和 21。 类 似 地 ,”item=dress” 可 能 分 配 到 向 量 的 77 和 87 位 置 上 。 交 互 特征 “female x dress” 必 须 
要 分 配 到 与 上 述 四 个 位 置 尽 可 能 统计 独立 的 位 置 上 去 ,但 是 同时 该 值 仍然 基于 上 述 原始 值 来 确定 。 

Shop It To Me 工程 师 们 完成 上 述 位 置 统计 独立 性 的 一 种 做 法 是 使 用 随机 的 种 子 来 组 合 每 两 个 
位 置 。 上 例 当 中 通过 随机 数 生 成 器 产生 的 种 子 为 22 和 92。 为 得 到 交互 特征 的 第 ;个 位 置 ， 使 用 下 
式 进行 计算 


@ D. Sculley , “Combined Regression and Ranking” , Æ 见 http://www.eecs.tufts.edu/~dsculley/papers/combined- 
rankingand-regression.pdf， 另 见 视频 演讲 : http://videolectures.net/kdd2010_sculley_crr/. 
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hash[i] = seed[0] * x[i] + seed[1] * y[i] 


其 中 x 和 w 分 别 包含 “woman” 和 “dress” 的 特征 位 置 。 


ag oo 


S a nnn a 


"female" "female" x "dress" e 
图 17-6 “交互 特征 需要 散 列 到 与 其 组 成 特征 位 置 不 同 的 位 置 


上 述 做 法 与 布 隆 过 滤器 中 使 用 的 双 散 列 密 切 相 关 , 并 且 已 有 工作 表明 这 种 做 法 能 够 为 组 合 特 
征 提供 相当 好 的 独立 的 位 置 结果 。 代码 清单 17-1 给 出 了 上 述 思路 下 的 一 个 交互 特征 编码 器 的 具体 


代码 清单 17-1 ”交互 特征 编码 器 的 一 个 实现 代码 示例 


public class CategoryInteractionEncoder { 种 子 组 合 散 列 值 编码 器 对 成 员 
private int[] 


seeds; 变量 进行 编码 
private CategoryFeatureEncoder[] encoders; 
private int probes = 2; 
CategoryInteractionEncoder(int seed, CategoryFeatureEncoder.. 
Random r = new Random(seed) ; 
seeds = new int[enc.length]; 


for (int i = 0; i < enc.length; i++) { 


; P 对 种 子 进行 确定 性 初始 化 
seeds[i] = r.nextInt(); 


. enc) { 


} 
this.encoders = enc; 


} 


public void addToVector(int[] categories, double weight, Vector data) { 
int[] hashes = new int[categories.length]; 


for (int i = 0; i < probes; i++) { < 一 组 合 散 列 值 
for (int j = 0; j < categories.length; j++) { 
hashes[i] += seeds[j] * 
encoders[j].hashForProbe(categories[j], i); 和 人 特性 的 到 人 
} 
int n = data.size(); 
for (int h : hashes) { a 利用 组 合 散 列 值 来 设置 值 
h=h $ n; 
iE (h < 0) £ 
h += n; 


data.setQuick(h, data.getQuick(h) + weight) ; 
} 
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在 交互 特征 编码 器 中 ， PF OMRAE HOE RAMA. 种 子 在 构造 函数 中 初始 化 @， 同 时 编 
码 器 队列 也 在 构造 函数 中 传人 。 在 addToVector () 方 法 中 ,交互 特征 中 每 个 变量 经 编码 器 的 散 
列 值 通过 整数 乘法 人 @ 运 算 来 组 合 ， 该 整数 在 交互 特征 编码 器 构建 时 基于 当时 提供 的 种 子 随机 选 
择 。 这 种 乘法 组 合 操作 确保 交互 特征 编码 器 所 选择 的 任意 特征 位 置 都 不 可 能 与 成 员 变 量 的 特征 位 
置 相 冲 突 。 需 要 注意 的 是 ，categoryFeatureEncoder 是 上 述 代码 示例 特有 的 类 而 并 非 Mahout 
本 身 的 一 部 分 。 

也 存在 一 些 其 他 的 对 交互 特征 进行 编码 的 方法 。 例如 , 可 以 对 所 有 成 员 特 征 编码 器 保存 第 一 
和 第 二 个 散 列 位 置 的 两 个 求 和 , 然后 利用 标准 的 双 散 列 算法 。 下 面 的 代码 给 出 了 这 种 方法 可 能 的 
一 个 实现 过 程 : 


public class CategoryInteractionDoubleHashingEncoder { 


private CategoryFeatureEncoder[] encoders; 

private int probes = 2; 

CategoryInteractionEncoder (CategoryFeatureEncoder... enc) { 对 成 员 变 量 编码 
this.encoders = enc; 


} 
public void addToVector(int[] categories, double weight, Vector data) { 
int hO = 0, hl = 0; 


for (int j = 0; j < categories.length; j++) { 
h0 += encoders[j].hashForProbe(categories[j], 0); 计算 两 个 基本 的 散 列 值 
h1 += encoders[j].hashForProbe(categories[j], 1); 


} 
int n = data.size(); 
for (int i = 0; i < probes; i++) { 
h = h0 + i * hi; 
了 和 (h < 0f { 
h += n; 
} 
data.setQuick(h, data.getQuick(h) + weight); 
} 
} 


9 利用 组 合 散 列 值 来 设置 值 


} 

这 里 和 前 面 一 样 对 每 个 成 员 变 量 构建 编码 器 @ ,不同 的 是 这 里 只 使 用 成 员 变 量 的 第 一 个 和 第 二 
个 探查 值 的 求 和 结果 @。 当 计算 交互 特征 的 位 置 @ 时 ， 使 用 双 散 列 对 上 面 两 个 求 和 结果 进行 组 合 。 

上 面 两 种 做 法 都 没有 进行 严格 的 评估 , 但 是 两 种 方法 在 实际 中 看 上 去 效果 不 错 。 然而 具有 讽 
刺 意味 的 是 ,使 用 分 类 器 来 做 推荐 , 用 户 和 商品 的 交互 变量 是 必需 的 , 但 是 这 些 交互 变量 会 增加 
变量 编码 和 分 类 计算 的 工作 量 。 由 于 Shop It To Me 分 类 吞吐 率 要 求 相 当 高 ， 分 类 系统 中 必须 要 进 
行 加 速 处 理 , 这 一 点 至 关 重 要 。 这 些 加 速 处 理 过 程 不 但 避免 了 编码 的 开销 而 且 还 避免 了 分 类 计算 
本 身 的 计算 开销 。 


17.4 ”加速 分 类 过 程 


如 前 所 述 ，Shop It To Me 对 最 终 系统 中 的 分 类 器 性 能 有 永恒 如 一 的 需求 ， 即 要 求 分 类 达到 惊 
人 的 速度 。 为 了 能 在 可 用 的 不 多 的 机 器 上 实现 每 秒 钟 上 千 万 的 分 类 需求 , 必须 要 在 基本 的 Mahout 
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之 上 进行 改进 。 由 于 使 用 的 内 部 特征 向 量 超过 100 000 个 元 素 ， 即 使 不 考虑 特征 编码 ， 采 用 原始 
的 方法 来 达到 所 需 的 分 类 速度 就 需要 每 秒 钟 完成 数 千 亿 的 浮 点 运算 。 要 在 仅仅 几 十 个 CPU 核 的 情 
况 下 ， 要 完成 该 任务 不 太 现实 。 

为 满足 上 述 需 求 ，Shop It To Me 工程 师 们 做 出 了 如 下 改进 : 

O 将 部 分 编码 的 特征 向 量 放 入 缓存 ; 

O 在 编码 器 内 部 将 散 列 位 置 值 放 和 人 缓存 ; 

口 将 模型 的 计算 过 程 划 片 来 保证 每 个 片 能 够 分 开 被 缓存 。 

上 述 改进 措施 最 终 将 运行 时 的 模型 计算 归结 成 3 个 查 表 和 2 个 加 法 操作 。 必须 的 预 处 理 包 括 每 
个 用 户 一 个 编码 运算 及 模型 计算 , 每 个 商品 上 有 几 百 这 样 的 计算 。 上 述 修改 带 来 的 总 体 消耗 节省 
量 达到 了 3 到 4 个 数量 级 , 这 使 得 整个 模型 计算 完全 切实 可 行 。 这 里 列 出 的 改进 措施 看 上 去 有 点 简 
单 ， 但 是 却 提供 了 一 个 强 有 力 的 Mahout 分 类 扩展 方法 。 如 果 读 者 的 项 目 当中 所 需要 的 吞吐 率 和 
Shop It To Me 一 样 高 ， 那 么 就 可 以 考虑 采用 上 述 革新 性 方法 。 


17.4.1 特征 向 量 的 线性 组 合 


Mahout 中 的 特征 提取 系统 将 各 个 分 开 的 特征 向 量 相 加 得 到 总 的 特征 向 量 。 在 Shop It To Me 这 
个 案例 中 ， 特 征 向 量 可 以 分 成 3 部 分 ， 分 别 与 用 户 、 商 品 及 两 者 同时 相关 。 


=X 用 户 十 X (品牌 偏好 能 二 年龄 组 ), 商品 品牌 十 区 商品 


由 于 可 以 将 各 部 分 放 人 缓存 中 而 不 需要 每 次 在 评估 模型 时 立即 计算 它们 的 值 , 这 种 划分 很 明 
显 有 助 于 降低 特征 编码 的 开销 。 

由 于 整个 特征 向 量 很 大 , 所 以 缓存 它 不 是 很 起 作用 。 而 由 于 各 独立 部 分 的 数目 要 小 得 多 , 所 
以 部 分 缓存 能 起 作用 。 基 本 上 来 说 ， 大 缓存 所 需 的 容量 大 概 是 多 个 小 缓存 容量 的 乘积 。 

图 17-7 给 出 的 是 在 上 述 特征 提取 的 3 个 部 分 如 何 用 于 模型 得 分 计算 的 过 程 。 


组 合 特 mea WAR ， ”转换 成 
TEN 征 向 量 的 特征 ”性 得 分 RRM 


图 17-7 Mahout SGD Logistic 回 归 模 型 评分 的 流程 


利用 上 述 3 个 部 分 特征 提取 的 缓存 技术 可 以 在 某 种 程度 上 起 到 加 速 作用 ,但 是 单独 来 看 ， 这 
种 缓存 技术 导致 的 速度 提升 并 不 够 。 当 然 ， 它 为 其 他 的 改进 方法 奠定 了 基础 。 
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17.4.2 ”模型 得 分 的 线性 扩展 


将 特征 向 量 分 成 三 部 分 能 对 特征 编码 起 到 加 速 作用 , 但 是 利用 特征 向 量 进行 的 模型 计算 在 最 
后 一 步 之 前 都 是 在 进行 线性 操作 。 这 能 够 允许 使 用 更 积极 的 缓存 技术 。 此 外 ,计算 后 面部 分 缓存 
的 元 素 会 小 很 多 。 

诸如 Mahout SGD 模 型 的 Logistic 回 归 模 型 的 运行 方式 如 下 : 首先 对 特征 进行 加 权 求 和 ， 然 后 
将 该 值 归 一 化 到 0~1 之 间 。 如 果 是 对 值 排序 ， 那 么 最 后 的 归 一 化 转换 过 程 可 以 省 略 ， 因 为 它 不 会 
改变 最 终结 果 的 顺序 。 在 Mahout 中 , AbstractVectorClassifier 中 的 classifyScalarNoLink 
(Vector) 方 法 就 正好 省 略 了 最 后 的 转换 过 程 。 

一 旦 去 掉 最 终 的 转换 过 程 , 模型 就 是 一 个 简单 的 加 权 求 和 结果 , 那么 就 可 以 使 用 特征 向 量 的 
一 个 线性 组 合 。 利 用 内 积 表示 方法 ,模型 的 输出 z 可 以 写成 : 

z=B-x 

这 里 的 5 代表 模型 中 每 个 特征 的 权重 ， 而 xz 代表 模型 中 用 到 的 特征 。 这 两 个 符号 代表 的 都 是 向 
量 值 。 这 里 的 乘 号 代表 的 是 向 量 的 内 积 计算 ， 及 将 8 和 x 对 应 元 素 相 乘 之 后 再 求 和 。 所 有 的 密集 计 
算 都 发 生 在 这 里 的 向 量 内 积 计 算 中 。 注 意 到 上 述 公 式 可 以 按照 特征 向 量 划分 的 方式 拆 分 成 三 
部 分 : 


Z=B * xmetp À X amamma) 商品 品牌 十 8 ”XX 商品 


上 述 拆 分 过 程 可 以 通过 修改 图 17-7 生 动 地 表示 出 来 , 图 17-7 给 出 的 是 Mahout SGD 模 型 的 计算 
流程 ， 这 样 的 话 更 多 的 计算 就 可 以 在 最 终 组 合 之 前 分 别 完成 。 

图 17-8 给 出 了 是 用 户 、 商 品 及 用 户 -商品 特征 在 得 分 组 合 之 前 分 别 应 用 于 权重 向 量 B 的 情况 。 
这 种 方法 的 一 个 明智 之 处 在 于 上 述 三 个 部 分 现在 都 能 高 效 缓存 。 


加 权 后 
的 特征 


组 合并 计算 ”转换 成 
线性 得 分 概率 值 


17-8 在 允许 预计 算 和 中 间 结 果 缓存 的 情况 下 如 何 重 新 组 织 模型 评分 的 过 程 示 意图 


很 重要 的 一 点 是 ， 每 部 分 的 值 现 在 都 是 单个 浮 点 数 而 不 是 向 量 ， 因 此 在 满 命 中 率 的 情况 下 ， 
对 特定 用 户 和 商品 的 单个 模型 计算 的 开销 就 会 从 几 千 次 浮 点 运算 下 降 到 仅仅 两 次 查 表 和 两 次 加 
法 运算 。 由 于 得 分 的 用 户 部 分 在 内 循环 的 外 面 计算 , 所 以 这 里 只 有 两 次 查 表 运算 。 而 缓存 小 对 和 象 
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也 会 减少 内 存 开销 ， 使 得 能 够 缓存 更 多 的 商品 。 
代码 清单 17-2 给 出 了 上 述 思路 的 实现 代码 。 


代码 清单 17-2 ”使 用 缓存 技术 和 部 分 模型 评估 来 加 速 商品 选择 过 程 


public class ModelEvaluator { 
private OnlineLogisticRegression model; 
private List<Item> items = Lists.newArrayList(); 
private Map<Item, Double> itemCache = Maps.newHashMap() ; 
private Map<Long, Double> interactionCache = Maps.newHashMap() ; 
private FeatureEncoder encoder = new FeatureEncoder () ; 
public List<ScoredItem> topItems(User u, int limit) { 
Vector userVector = 
new RandomAccessSparseVector (model.numFeatures() ) ; 9 仅 对 用 户 进 行 一 次 评分 
encoder .addUserFeatures(u, userVector) ; 
double userScore = model.classifyScalarNoLink(userVector) ; 


a 从 其 他 代码 获得 


PriorityQueue<ScoredItem> r = ® 累加 最 佳 优先 级 队列 
new PriorityQueue<ScoredIitem>(); 
for (Item item : items) { J 查找 缓存 的 商品 得 分 
Double itemScore = itemCache.get (item); 
if (itemScore == null) { 


Vector v = new RandomAccessSparseVector (model.numFeatures()); 
encoder.addItemFeatures(item, v); 


itemScore = model.classifyScalarNoLink(v) ; 车 未 发 现 ， 则 计算 得 分 
itemCache.put(item, itemScore) ; 
} bg 查找 缓存 的 交互 成 分 
long code = encoder.interactionHash(u, item) ; 
Double interactionScore = interactionCache.get (code) ; 
if (interactionScore == null) { 


Vector v = new RandomAccessSparseVector (model.numFeatures() ); 
encoder.addInteractions(u, item, v); 
interactionScore = model.classifyScalarNoLink(v) ; 
interactionCache.put (code, interactionScore) ; 
} 
double score = userScore + itemScore Ss diaa 
+ interactionScore; 
r.add(new ScoredItem(score, item)); 
while (r.size() > limit) { 
rr. poll (y; 
} 
} 
return Lists.newArrayList(r) ; 
} 
} 


上 面 这 个 类 给 出 了 一 个 简化 的 代码 片段 ， 该 片段 可 以 通过 商品 和 交互 信息 缓存 来 评估 模型 。 
假设 在 上 述 代 码 中 ， 模 型 和 商品 列表 通过 其 他 方式 传人 @@。 

该 类 的 功能 是 , 给 定 某 个 用 户 时 首先 计算 该 用 户 的 得 分 的 组 成 部 分 人 @。 然后 扫描 所 有 商品 的 
列表 并 对 每 个 商品 计算 模型 得 分 。 具有 最 高 得 分 的 那些 商品 被 保留 合 。 模 型 得 分 需要 计算 三 个 部 
分 。 用 户 变量 那 一 部 分 在 商品 循环 之 外 计算 人 并 保留 。 然 后 在 内 循环 ， 如 果 商 品 @@ 和 用 户 -商品 
交互 特征 全 没有 在 适当 的 缓存 数据 结构 中 发 现 ， 那 么 它们 会 分 别 计算 。FeatureEncoder 是 一 个 用 
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于 为 各 种 不 同 用 户 、 商 品 及 它们 的 交互 特征 的 编码 器 进行 包装 的 便利 类 。 最 后 ,各 部 分 的 得 分 组 
合成 最 终 得 分 @。 

很 明显 , 采用 这 种 方式 来 拆 分 模型 计算 过 程 并 不 简单 , 但 是 有 些 情况 下 由 于 能 够 起 到 大 幅度 
加 速 作用 所 以 还 是 值得 的 。 


17.5 小结 


在 本 章 给 出 的 在 线 营 销 案例 中 , 我们 介绍 了 Shop It To Me 的 工程 师 们 在 开发 Mahout 分 类 器 所 
用 到 的 一 些 创新 技术 ， 他 们 利用 这 些 技术 来 预测 用 户 对 看 到 的 商品 是 否 点 击 。 他 们 使 用 Mahout 
分 类 器 不 管 是 在 训练 还 是 对 真实 数据 运行 部 署 所 能 达到 的 速度 和 规模 展示 了 如 何在 大 规模 问题 
上 应 用 Mahout。 

这 一 章 学 到 的 有 关 分 类 的 一 些 原 则 已 经 应 用 于 Shop It To Me 的 实际 系统 中 。 一 个 重要 的 思路 
是 ， 分 类 能 够 在 一 个 排除 传统 推荐 方法 的 系统 中 作为 得 到 类 似 推荐 结果 的 一 种 有 效 方法 。 

该 案例 曾 示 的 男 一 个 重要 的 原则 是 一 开始 对 问题 进行 仔细 分 析 很 有 价值 , 特别 是 关键 点 的 考 
察 相当 重要 ,如 果 在 工程 设计 中 不 考虑 这 些 关 键 点 可 能 会 影响 最 终 的 成 功 。 这 些 关 键 点 常常 来 自 
极端 的 速度 和 规模 需求 ,Shop It To Me 这 个 在 线 营 销 系统 的 案例 中 给 出 了 大 量 的 上 述 挑战 性 问题 。 
对 问题 进行 分 析 可 以 让 工程 师 意识 到 他 们 的 系统 切换 到 Mahout 分 类 的 价值 所 在 ,并 且 能 够 确定 需 
要 一 些 定制 来 扩展 Mahout 的 效果 。 

Shop It To Me 这 个 案例 也 展示 了 利用 大 规模 联结 来 实现 并 行 训练 流水 线 的 威力 ， 这 也 是 上 一 
章 中 需要 掌握 的 关键 点 。 读 者 可 能 会 发 现 , 有 很 多 应 用 当中 都 可 以 通过 这 种 方法 来 构建 流水 线 来 
满足 超大 项 目的 规模 和 速度 的 需要 。 

该 案例 中 叶 给 出 了 在 Shop It To Me 系统 中 所 用 的 革新 性 技术 。 这 些 新 技术 包括 对 象 排序 模型 
学 习 及 元 学 习 中 的 分 组 AUC 使 用 。 以 排序 和 回归 为 组 合 目标 的 学 习 看 上 去 对 几乎 所 有 的 SGD 学 习 
应 用 十 分 有 效 。 每 当 分 类 器 用 作 推 荐 程序 时 ， 以 分 组 AUC 作 为 aaaptiveLogisticRegression 
的 目标 来 优化 元 参数 的 学 习 看 起 来 是 一 个 十 分 有 效 的 策略 。 

就 吞吐 率 而 言 , 这 里 的 最 大 经 验 是 缓存 策略 用 于 加 速 Mahout 分 类 器 的 多 种 做 法 。 这 些 方法 包 
括 部 分 编码 特征 向 量 的 缓存 、 编 码 器 内 散 列 位 置 的 缓存 以 及 将 模型 计算 拆 分 成 可 以 各 自 独 立 缓存 
的 片段 。 即 使 Shop It To Me 在 Mahout 分 类 中 使 用 了 很 多 新 技术 ， 但 是 这 绝 不 是 事情 的 终点 。 训 练 
速度 的 提高 仍然 有 相当 的 空间 ， 而 且 现 有 的 部 署 系统 不 太 可 能 压榨 了 所 有 的 速度 空间 。 

Mahout 到 底 能 走 多 远 是 下 一 章 的 主题 ， 而 这 一 章 的 创作 就 留 给 读者 自己 来 完成 。 


JVM 调 优 


这 一 附录 讨论 在 基于 Mahout 的 非 分 布 式 应 用 中 , 如 何 通过 优化 JVM 配 置 来 提升 性 能 。 这 并 不 
是 Hadoop 的 优化 指南 ，Hadoop 的 优化 本 身 就 是 一 个 庞大 的 话题 。 这 里 的 优化 针对 非 分 布 式 的 
Mahout, 主要 是 关于 推荐 引擎 的 实现 。 尽管 这 些 配置 很 可 能 对 于 任何 基于 Java 的 服务 器 端 进 程 都 
会 有 效 ， 但 主要 目标 还 是 优化 基于 非 分 布 式 Mahout 的 推荐 引擎 。 

当 使 用 一 个 规模 庞大 的 数据 集 时 ( 可 能 是 1 千 万 甚至 更 多 的 偏好 值 ), 调 优 JVM 配 置 来 改善 
性 能 具有 重要 意义 。 与 堆 相 关 ( 内 存 相关 ) 的 配置 是 最 为 重要 的 。 尽 管 最 优 配置 取决 于 多 方面 
因素 ,如 操作 系统 、 可 用 资源 、 架 构 以 及 JVM 等 , 但 下 列 JVM 配 置 项 将 会 给 你 一 个 较为 理想 的 
初始 配置 。 

表 A-1 列 出 了 Mahout 相 关 的 一 些 选 项 ， 除 了 -Xx :NewRatio， 其 余 选 项 在 所 有 已 知 的 Java 6 
JVM 中 都 是 有 效 的 ， 相 关 解 释 见 下 表 。 


表 A-1 优化 推荐 系统 涉及 的 JVM 关 键 参数 


2 数 描 $ 
-Xmx 设 定 Java 允 许 使 用 的 最 大 堆 空 间 。 例 如 -xmx512m 表 示 堆 空间 上 限 为 512 MB 
“Server 现代 JVM 有 两 个 重要 标志 : -client 和 -server, 分 别 为 客户 端 程序 ( 运行 时 间 短 、 占 


用 资源 少 ) 和 服务 器 端 程序 (长 时 间 运 行 、 资 源 密集 型 ) 选择 合适 的 JVM 配 置 。 默认 值 
取决 于 具体 的 JVM 和 环境 。 显 然 ， 在 这 里 -server 更 合适 


-d32 和 -d64 分 别 设 定 32 位 和 64 位 模式 。 在 一 台 64 位 的 机 器 上 , 两 种 都 是 有 效 的 。 尽 管 通常 情况 下 最 
好 是 让 JVM 自 己 决定 , 但 选择 32 位 模式 可 以 降低 内 存 需 求 。 当 然 ，32 位 模式 下 不 可 能 使 
用 超过 2 ~ 3 GB 的 堆 空 间 ( 具体 取决 于 JVM ) ， 但 是 如 果 需 求 达 不 到 这 一 界限 的 话 ， 节 
省 一 些 内 存 也 不 失 为 一 个 好 的 选择 ,在 64 位 机 器 上 选择 32 位 模式 会 导致 轻微 的 性 能 损失 


“Xx:+NewRatio= 有 一 部 分 堆 空间 是 为 生命 周期 很 短 的 临时 对 象 保留 的 ,不 能 用 于 生命 周期 较 长 的 数据 结 
构 。Mahout 在 运行 时 是 有 偏向 的 : 它 很 少 创建 临时 对 象 ， 而 生命 周期 长 的 对 象 则 需要 
消耗 大 量 堆 空间 。 默认 情况 下 用 于 临时 对 象 的 堆 空 间 比 例 太 大 , 这 显得 有 些 浪费 。 此 选 
项 可 控制 用 于 临时 对 象 的 空间 比例 , 例如 , 设 为 12 时 ,只 有 1/12 的 堆 空 间 用 于 保存 临时 
对 象 。 注 意 ， 此 选项 是 Sun JVM 所 特有 的 


-XX:+UseParallelGC 和 通过 并 行 的 垃圾 收集 机 制 使 JVM 更 好 地 利用 多 个 处 理 器 或 单一 处 理 器 的 多 个 核 ( 这 在 当 
-XX:+UseParallelOldGc 前 的 桌面 平台 上 都 已 经 很 普遍 了 ) 
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为 了 演示 这 些 JVM 配 置 项 的 效果 ， 我 们 用 代码 清单 4-2 中 的 代码 进行 了 试验 。 首 先 从 默认 的 
32 位 客户 端 JVM 开 始 : -client -d32 -xmx512m。 这 些 都 是 JVM 标 志 ， 而 非 程 序 标志 ， 所 以 它 
们 需要 出 现在 程序 的 类 名 之 前 。 我 们 使 用 一 个 现代 的 64 位 计算 机 来 进行 测试 , 负载 评估 结果 显示 
推荐 时 间 为 425 ms， 稳 定 状 态 下 需要 消耗 248 MB 堆 空 间 。( 你 自己 的 测试 结果 中 时 间 和 堆 空间 都 
有 可 能 跟 这 里 不 同 。) 

如 果 我 们 将 -client 替 换 为 -server 呢 ?性 能 应 该 有 所 提高 。 测 试 结果 显示 ,内 存 用 量 没 有 
变化 ， 但 推荐 时 间 降 为 192 ms。 这 表明 为 服务 器 端 模式 优化 的 JVM 更 适合 此 类 应 用 。 

现在 , 将 -a32 改 为 -a64。 你 将 遇 到 outofMemoryError 错 误 。 你 可 能 需要 分 配 768 MB 的 堆 
空间 ( -xmx768m )， 然 后 再 次 运行 。 推 荐 速度 再 次 提升 ， 时 间 降 至 142 ms。 这 并 不 奇怪 ,在 64 
位 机 器 上 64 位 模式 效率 更 高 。 稳 定 状态 下 的 内 存 需求 则 几乎 没 变 : 256 MB。 从 设计 上 讲 ，64 位 
模式 增加 的 内 存 需 求 用 在 对 象 和 引用 上 ， 而 与 Mahout 的 推荐 引擎 创建 的 长 时 对 象 关 系 不 大 。 

你 可 能 注意 到 一 个 奇怪 现象 : 既然 稳定 状态 下 的 内 存 需 求 仅 为 256 MB ， 为 什么 在 可 用 内 存 
为 512 MB 的 情况 下 ，JVM 还 会 因为 堆 空间 不 足 而 出 错 ? 在 构建 DataModel 的 in-memory 数 据 表示 
过 程 中 ， 内 存 需 求 会 有 一 个 峰值 。 

你 可 以 尝试 -Xx:+NewRatio=12 标 志 ， 它 会 将 内 存 用 量 降 至 640 MB. 

最 后 ,， 试 试 加 上 -xx:+UseParallelGC -XX:+UseParallel01dGCc。 当 可 用 的 处 理 器 核 不 
止 一 个 时 ， 这 会 允许 垃圾 收集 与 主 计算 过 程 并 行 执行 。 在 我 们 的 测试 机 器 上 ， 推 荐 时 间 降 至 126 
ms。 与 最 初 的 425 ms 比 起 来 要 好 多 了 。 

图 A-1 显 示 了 在 一 个 现代 计算 机 上 ， 不 合适 的 JVM 配 置 会 导致 推荐 时 间 增 长 至 原来 的 3.5 倍 。 
任何 部 署 在 严肃 场合 的 推荐 引擎 都 必须 进行 适当 的 优化 。 


客户 端 JVM，32 位 


64 位 JVM 


GC 配 置 


0 50 100 150 200 250 300 350 400 450 


图 A-1 推荐 时 间 随 着 JVM 的 优化 而 不 断 降低 (单位: ms ) 


Mahout 数 学 基础 


Mahout 实 现 的 很 多 算法 都 高 度 依赖 于 向 量 和 矩阵 相关 的 数学 知识 。Mahout 自 己 的 math 模 块 
就 有 自 包含 的 向 量 和 矩阵 数学 工具 库 ， 并 且 该 模块 可 以 脱离 Mahout 单 独 使 用 ， 它 实际 上 是 CERN 
的 Colt 库 ( http://dsd.lbl.gov/~hoschek/colt/ ) 的 一 个 改编 版 本 。 

本 附录 从 实用 的 角度 概述 了 Mahout math 模 块 中 的 关键 部 分 ( 在 使 用 Mahout 时 ， 用 户 常常 会 
遇 到 )。 它 们 包括 Vector 和 Matrix 实 例 ， 以 及 相关 的 运算 。 这 个 附录 并 非 十 分 完善 的 文档 ， 读 
者 感 兴趣 的 话 可 以 通过 Mahout 项 目 中 的 Javadoc 文 档 和 源 代码 进一步 了 解 细节 。 


B.1 向 量 


尽管 不 同 地 方术 语 “ 向 量 ” 的 意义 基本 类 似 , 但 在 不 同 的 上 下 文中 其 含义 还 是 有 细微 差别 的 。 
大 部 分 人 都 是 首次 在 物理 学 中 见 到 向 量 ， 在 那里 它 表 示 方 向 并 且 通 常用 箭头 展示 。 为 达到 目的 ， 
有 时 我 们 使 用 向 量 来 代表 空间 中 的 点 。 这 里 的 思路 与 以 前 并 没有 不 同 ， 只 不 过 这 里 的 点 对 应 坐标 
原点 到 该 点 的 向 量 。 

在 机 器 学 习 和 Mahout 中 , 很 多 时 候 是 在 一 个 更 抽象 的 意义 上 使 用 向 量 , 这 时 的 向 量 并 不 一 定 
对 应 某 个 几何 上 的 解释 。 向 量 可 以 只 是 一 个 元 组 或 者 有 序数 值 列 表 。 向 量 有 长 度 ( 或 者 称 为 维度 )， 
向 量 中 从 0 到 长 度 减 1 的 每 个 索引 (也 叫 位 置 ) 上 有 某 个 数值 。 向 量 通常 写成 诸如 (2.3，1.55, 0.0) 
之 类 的 数值 列表 。 例 如 ， 上 面 这 个 向 量 的 长 度 为 ?， 索 引 1 位 置 上 的 值 为 1.55。 在 机 器 学 习 中 ， 有 
时 候 处 理 的 向 量 长 度 达 到 上 百 万 级 。 


B.1.1 向 量 实现 


org.apache.mahout .math 中 的 Vector 是 一 个 应 用 时 才 实 现 的 接口 。 该 接口 有 多 个 实现 。 
将 向 量 以 节省 内 存 的 方式 表示 , 并 且 提 供 向 量 值 的 快速 访问 , 对 于 Mahout 来 说 相当 重要 。 根据 向 
量 的 本 质 和 使 用 方式 的 不 同 ， 完 成 上 述 要 求 的 最 佳 做 法 也 不 相同 。 

最 重要 的 考虑 因素 是 向 量 数据 的 稀疏 度 (sparseness ) 或 密集 度 〈 denseness )。 很 多 情况 下 ， 
相对 于 向 量 长 度 来 说 ， 只 有 很 少 位 置 上 的 值 才 不 为 零 , 这 也 意味 着 其 他 位 置 上 的 值 都 为 零 。 如 果 
一 个 长 度 为 1000 的 向 量 只 有 2 个 位 置 上 的 值 不 为 零 , 那么 和 两 个 非 零 数 值 一 起 保存 其 余 998 个 零 不 
会 有 多 大 意义 。 当 然 ， 如 果 有 100 个 位 置 上 的 数值 为 零 ， 那 么 浪费 的 空间 看 起 来 就 没 那么 大 了 。 
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如 果 相 对 于 长 度 来 说 ， 有 相对 较 多 位 置 上 的 值 不 为 零 ， 向量 称 为 密集 向 量 。 这 种 向 量 可 以 通 
过 双 浮 点 数 数 组 保存 数值 来 实现 。 此 时 向 量 的 索引 位 置 就 直接 对 应 数组 的 下 标 。 密 集 向 量 的 优势 
在 于 速度 。 由 于 按 数组 保存 , 因此 访问 和 更 新 任意 值 都 很 快 。 DenseVector 提 供 了 这 样 一 种 实现 。 

稀 蚊 向 量 要 求 一 种 不 同 的 实现 方式 。 为 了 不 浪费 空间 存储 零 值 , 它 只 存储 非 零 值 的 索引 位 置 
和 对 应 值 。 我 们 可 以 使 用 散 列 表 来 实现 从 索引 位 置 到 值 的 简单 映射 。 访问 索引 位 置 会 比 直 接 的 数 
组 访问 要 慢 ， 但 是 也 不 会 慢 太 多 。RandomaccessSpareseVector 是 上 述 思想 的 一 个 实现 。 

基于 散 列 的 向 量 实现 有 一 个 问题 , 如 果 按 索引 位 置 顺序 循环 访问 所 有 向 量 值 , 那么 速度 相对 
变 慢 , 而 按 位 置 对 向 量 遍 历 是 一 个 比较 频繁 的 需求 。 由 于 基于 树 结构 的 有 序 映射 以 及 类 似 思路 按 
序 维护 主键 ， 所 以 它们 可 以 解决 这 个 问题 ， 这 种 结构 带 来 的 代价 是 更 长 的 访问 时 间 。 
SequentialAccessSparseVector 是 第 三 种 也 是 最 后 一 种 向 量 实现 方式 ， 它 能 满足 上 述 要 求 。 
图 B-1 给 出 了 密集 向 量 和 稀 玖 向 量 的 例子 。 


密集 向 量 | ss | 0.0 0.0 一 1.2 2.0 0.0 -33 
=l 


Far bag E 0.0 0.0 | -1.2 2.0 0.0 -3.3 


图 B-1 密集 向 量 被 表示 成 一 个 完整 数组 ， 因 此 只 需要 保存 双 浮 点 值 。 稀 疏 向 量 并 不 对 
零 分 量 分 配 空间 ， 因 此 需要 保存 一 个 整数 来 指出 每 个 非 零 双 浮 点 数值 的 索引 位 
置 。 保 存 的 值 都 用 方 框框 住 ， 其 他 值 则 很 明确 不 需要 保存 


B.1.2 ”向量 操作 


下 面 介绍 Vector 中 常用 的 方法 。 

get (int) 和 set (int，double) 方 法 提供 了 对 向 量 的 基本 操作 ， 分 别 访问 和 修改 索引 位 置 
上 对 应 的 向 量 值 。getouick (int) 和 setQuick(int，double) 方 法 完成 的 功能 与 前 面相 同 ， 
但 是 没有 提供 边界 检查 功能 , 这 有 助 于 内 部 性 能 优化 。 其 他 调用 程序 或 许 应 该 坚持 使 用 前 两 个 方 
法 。 正 如 预期 的 那样 ，size() 返 回 的 是 向 量 长 度 。 

我 们 可 以 通过 iterator () 和 iterateNonZzero() 完 成 对 所 有 向 量 元 素 的 遍历 , 前 者 访问 所 
有 索引 位 置 的 所 有 元 素 , 而 后 者 只 访问 非 零 元 素 。 这 些 方法 返回 的 Iterator 对 应 Element 对 象 ， 
其 中 封装 了 索引 位 置 和 对 应 值 。 

这 里 实现 的 标准 clone () 方 法 用 于 Vector 的 复制 , 实现 时 也 提供 了 构造 函数 的 副本 。1ike () 
方法 返回 一 个 同类 的 空 Vector。 这 是 一 种 工厂 方法 ( factory method )。 

最 后 ， 我 们 介绍 math 模 块 中 涉及 数学 的 地 方 。plus (Vector) 和 minus (Vector) 方 法 提供 
了 标准 的 向 量 加 法 和 减法 运算 。 我 们 也 可 以 通过 times (double) 或 divide (double) 实 现 向 量 
对 一 标量 的 乘法 和 除法 运算 。 另 请 注意 方法 aot (Vector) 和 cross (Vector) ， 前 者 实现 向 量 的 
内 积 (WAR) 运算 ， 后 者 创建 了 两 个 向 量 元 素 两 两 相 乘 得 到 的 矩阵 。 
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B.1.3 ”高 级 的 向 量 方法 


迄今 为 止 提 到 的 方法 都 像 预期 一 样 直接 了 当 。vector 中 的 第 一 个 不 平凡 方法 是 assign 
(Vector, DoubleDoubleFunction)。 该 方法 对 Vector 进 行 修改 ,将 其 值 设 为 该 Vector 和 男 
一 个 Vector 的 值 上 的 某 个 函数 的 结果 。DoubleDoubleFunction 封 装 了 一 个 函数 ,该 函数 接受 
两 个 输入 值 , 输出 一 个 结果 数值 。 这 个 方法 与 前 面 的 基本 方法 没有 本 质 区 别 , 但 可 以 让 你 的 操作 
更 高 效 。 

例如 , 给 定向 量 4 和 向 量 B, 计算 C = mAB , 其 中 m 是 一 个 标量 。 这 可 以 通过 如 代码 清单 B-1 
所 示 的 myoperation 方 法 来 实现 。 


代码 清单 B-1 高效 实现 Vector 运算 
Vector myOperation(Vector A, Vector B, double m) { 
return A.times(m).minus(B) ; 


} 


Vector myFasterOperation(Vector A, Vector B, final double m) { 
A.assign(B, new DoubleDoubleFunction() { 
public double apply(double a, double b) { 
return a * m - p; 
} 
Wa 
} 


不 论 是 myoperation 还 是 myFastoperation 都 能 完成 上 述 任务 。 第 一 种 方法 很 简单 ， 但 是 
却 要 比 看 起 来 慢 一 些 。 两 次 数学 运算 中 的 每 一 次 都 要 分 配 一 个 全 新 的 Vector 对 象 ， 并 且 这 些 
Vector 也 要 遍历 两 次 。 然 而 ， 第 二 种 方法 并 不 分 配 新 的 Vector 对象， 它 破坏 性 地 更 改 A， 这 可 
能 十 分 便利 并 如 我 们 所 愿 。 并 且 ， 它 只 需要 对 向 量 做 一 次 遍历 就 可 以 计算 出 结果 。 

aggregate (DoubleDoubleFunction，DoubleFunction) 方 法 能 够 简化 基于 向 量 所 有 元 
素 值 的 函数 的 计算 过 程 , 特别 当 与 Functions 中 现成 的 函数 结合 使 用 时 。 例 如 ,要 计算 向 量 所 有 
值 的 平方 和 ， 可 以 采用 代码 清单 B-2 中 的 任意 一 个 方法 来 实现 。 


代码 清单 B-2 计算 累积 值 


double mySumOfSquares(Vector A) { 
double sum = 0.0; 
for (Element e : A.iterateNonZero()) { 
sum += e.get() * e.get(); 
} 
return sum; 


} 


double myotherSumoftScuares (Vector A) { 
return A.aggregate(Functions.PLUS, Functions.SQUARE) ; 
} 


其 中 ， 在 当前 场景 下 ， 第 二 种 实现 方法 效率 要 低 一 些 ,但 是 它 要 更 紧凑 一 些 。 
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B.2 和 矩阵 


与 向 量 不 同 ,矩阵 没有 什么 歧义 ， 而 且 读 者 可 能 对 它 更 熟悉 一 些 ， 因 为 至 少 可 能 在 数学 课 上 
看 到 过 矩阵 的 运算 。 和 矩阵 就 是 一 张 数值 表 。 这 种 简单 的 构 型 被 证 明 在 物理 学 和 线性 代数 中 表示 概 
念 时 十 分 有 用 ,进而 也 扩展 到 了 机 器 学 习 中 。 这 些 领 域 中 和 矩阵 运算 是 算法 的 基本 组 成 部 分 ,Mahonut 
在 多 处 都 使 用 了 矩阵。 通常 来 说 ， 在 Mahout 中 将 和 矩阵 的 行 或 列 看 成 向 量 非常 有 用 。 

Mahout 中 的 矩阵 表示 为 接口 Matrix 的 实现 。 其 实现 方式 和 Vector 相同 ,， 即 为 不 同 场景 或 使 
用 模式 来 进行 相应 优化 从 而 得 到 多 个 类 的 Matrix 实 现 。 和 矩阵 也 有 类 似 的 稀 朴 性 问题 。 
SparseMatrix 和 DenseMatrix 分 别 代 表 相 对 于 规模 来 说 非 零 元 素 很 少 和 很 多 的 和 矩阵。 

SparseRowMatrix 和 SparseColumnMatrix 是 两 个 很 有 趣 的 SparseMatrix 变 种 ， 分 别 应 
用 于 矩阵 行 或 列 常 常 当做 一 个 访问 单位 〈 即 一 个 向 量 ) 的 情况 。sparseRowMatrix 应 用 于 非 零 
行 很 少 ， 但 是 每 行 又 必须 作为 向 量 来 访问 的 情况 。 而 sparsecolumnMatrix 则 应 用 于 相同 的 列 
向 量 情况 。 


和 矩阵 操作 


Vector 中 的 大 部 分 方法 也 在 Matrix 中 存在 ， 当 然 矩阵 固有 的 二 维 性 质 使 这 些 方法 存在 形式 
稍 有 不 同 。 例 如 ，get (int, int) 方 法 返回 的 是 特定 行列 号 的 矩阵 元 素 值 ， 而 size() 同时 返回 
矩阵 的 行 数 和 列 数 。1ike () 方 法 和 clone () 方 法 的 处 理 也 以 此 类 推 。 像 类 似 assign (double) 
的 便捷 操作 一 样 ， 这 里 支持 对 行列 绑 定 标签 。 

Matrix 分 别提 供 了 矩阵 加 法 和 乘法 的 实现 : plus (Matrix) 及 times (Matrix)。 其 他 常见 
的 矩阵 运算 还 包括 和 矩阵 的 转 置 transpose () 和 行列 式 计算 qeterminant () 。 

和 矩阵 运算 本 身 并 没有 什么 令 人 惊讶 之 处 ,但 是 可 以 用 一 种 紧凑 的 方式 来 实现 原本 复杂 的 运 
算 。 例 如 ， 代 码 清 单 B-3 给 出 的 是 一 个 m x n 的 矩阵 ， 和 一 个 n 维 向 量 (可 以 看 成 是 一 个 n x 1 的 矩 
EE) 的 乘积 。 


代码 清单 B-3 FRAME 
Vector vector = new SequentialAccessSparseVector(n); 
Matrix matrix = new SparseMatrix(new int[] {m, n}); 
Matrix vectorAsMatrix = new SparseColumnMatrix(new int[] {n, 1}); 
vectorAsMatrix.assignColumn(0, vector); 
Matrix productMatrix = matrix.times(vectorAsMatrix) ; 
Vector product = productMatrix.getColumn (0) ; 


上 面 这 种 运算 常常 在 线性 代数 和 机 器 学 习 中 出 现 ， 从 上 面 可 以 看 到 通过 Mahout math 模 块 实 
现 这 类 运算 十 分 简单 。 
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B.3 Mahout math 和 Hadoop 


Matzix 和 Vector 的 实现 常常 用 于 Hadoop 相 关 的 Map 和 Reduce 任 务 中 。 这 也 意味 着 它们 必 
须 可 序列 化 ， 即 可 以 转换 为 可 存储 、 传 输 和 重 构 的 字 节 序列 。Hadoop 并 没有 Java 的 标准 序列 化 
机 制 java.io.Sserializable 来 实现 Matrix 和 Vector 的 序列 化 。 实 际 上 ， 它 为 此 定义 了 一 个 
十 分 类 似 的 接口 writablel。 为 使 自己 能 够 以 键 - 值 方式 在 Hadoop 中 使 用 , 类 会 实现 writable 
接口 。 

Vector 和 Matzrix 自 己 没 有 扩展 writable， 因 为 这 样 做 会 使 math 模 块 依赖 于 Hadoop， 而 在 
概念 上 它 并 不 依赖 于 Hadoop 之 类 的 系统 。 在 核心 的 Mahout 模 块 中 , 你 可 以 发 现 Vvectorwritable 
和 Matrixwritable， 它 们 分 别 实现 了 vector 和 Matrix 的 writable 接 口 。 它 们 封装 了 关于 如 
何在 Hadoop 中 序列 化 向 量 或 矩阵 的 知识 。 在 读 取 或 者 写 人 向 量 或 矩阵 的 Map 和 Reduce 任 务 中 , 这 
些 类 中 原始 (raw ) 的 接口 实现 要 在 传 给 Hadoop 之 前 进行 包装 ， 返 回 时 也 是 同样 格式 。 


相关 资源 


互联 网 总 能 够 提供 要 多 、 更 新 的 机 器 学 习 和 Mahout 相 关 资 源 ; 请 使 用 你 喜欢 的 搜索 引擎 搜索 
协同 过 滤 ( collaborative filtering ) RÆ (clustering )、 分 类 ( classification ) 等 主题 。 你 也 可 以 使 
用 面向 研究 领域 的 搜索 引擎 ， 比 如 Google Scholar ( http://scholar.google.com )。 

这 里 给 出 了 一 些 经 典 的 论文 和 参考 资料 ， 以 帮助 大 家 进一步 理解 Mahout 和 本 书 的 内 容 。 
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欢迎 加 入 


图 灵 社 区 tu 二 om gf 


一 一 最 前 沿 的 上 T 类 电子 书 发 售 平台 


电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同行 还 在 犹 瑰 稍 律 的 时 候 ， 图 灵 社 区 已 经 采取 实际 行 
动 拥抱 这 个 出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 IT 类 出 版 商 ， 图 灵 社 区 目前 为 读者 提供 两 种 
DRM-free 的 阅读 体验 : 在线 阅读 和 PDF。 

相 比 纸 质 书 ， 电 子 书 具 有 许多 明显 的 优势 。 它 不 仅 发 布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 
F (即使 有 的 书 纸 质 版 是 黑白 印刷 的 ) 。 读 者 还 可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 

图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 
网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 
以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 往 翻译 版 技术 书 “ 出 版 即 过 时 ”的 缺憾 。 同 
时 ， 敏 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 
书 出 版 的 质量 。 


优惠 提示 : 现在 购买 电子 书 ， 读 者 将 获 赠 书 款 20% 的 社区 银子 ， 可 用 于 部 换 纸 质 样 书 。 


一 一 最 方便 的 开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写作 功能 ， 协 助 你 实现 自 出 版 和 开源 出 版 的 梦想 。 利 用 “合集 ”功能 ， 
你 就 能 联合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 的 形式 提供 给 读者 。( 收费 形式 须 经 过 
图 灵 社 区 立项 评审 。 ) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 的 意愿 ， 图 灵 社 区 就 能 帮助 你 实现 
这 个 上 梦想。 成 熟 的 书稿 ， 有 机 会 和 人选 出 版 计划 ， 同 时 出 版 纸 质 书 。 

图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 社区 公布 。 如 果 你 有 意 翻译 哪 本 图 书 ， 欢 迎 
你 来 社区 申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 
翻译 工作 ， 是 需要 有 坚强 的 毅力 的 。 


一 一 最 直接 的 读者 交流 平台 


在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 误 、 发 表 评 论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 
员 和 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 银子 。 
你 可 以 积极 参与 社区 经 常 开展 的 访谈 、 乐 译 、 评 选 等 多 种 活动 ， 赢 取 积 分 和 银子 ， 积 累 个 人 声望 。 
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